Plurai
Plurai é uma plataforma de confiança para agentes de IA que acelera o desenvolvimento de agentes prontos para …
Plurai é uma plataforma de confiança para agentes de IA que acelera o desenvolvimento de agentes prontos para produção através de simulação, avaliação e guardrails. Reduz significativamente taxas de falha, violações de política e custos em comparação com modelos de linguagem grandes.
Agenta
Agenta é uma plataforma LLMOps de código aberto projetada para equipes construírem aplicações LLM confiáveis. Ela integra gerenciamento …
Agenta é uma plataforma LLMOps de código aberto projetada para equipes construírem aplicações LLM confiáveis. Ela integra gerenciamento de prompts, avaliação sistemática e observabilidade em um único fluxo de trabalho colaborativo, ajudando desenvolvedores, gerentes de produto e especialistas de domínio a passarem de processos dispersos para um desenvolvimento estruturado.
Athina
Athina é uma plataforma colaborativa de desenvolvimento de IA projetada para ajudar equipes a construir, testar e monitorar …
Athina é uma plataforma colaborativa de desenvolvimento de IA projetada para ajudar equipes a construir, testar e monitorar aplicações LLM 10x mais rápido. Ela fornece um conjunto abrangente de ferramentas para engenharia de prompts, avaliação, experimentação, anotação e monitoramento de produção. Athina apoia usuários técnicos e não técnicos, garantindo colaboração contínua e a implantação de sistemas de IA de alta qualidade e confiáveis.
LangWatch
LangWatch é uma plataforma tudo-em-um de código aberto para monitorar, avaliar e otimizar aplicações LLM. É especializada em …
LangWatch é uma plataforma tudo-em-um de código aberto para monitorar, avaliar e otimizar aplicações LLM. É especializada em testes de agentes de IA através de ambientes de usuário simulados, ajudando as equipes a detectar regressões e casos extremos antes da produção. A plataforma combina observabilidade, avaliação, otimização e guardrails para garantir que as aplicações de IA sejam confiáveis, seguras e performáticas.
deepchecks
Deepchecks é uma plataforma de ponta a ponta para avaliar, validar e monitorar aplicações baseadas em LLM. Ajuda …
Deepchecks é uma plataforma de ponta a ponta para avaliar, validar e monitorar aplicações baseadas em LLM. Ajuda as equipes de IA a definir, medir e validar o progresso da IA, garantindo o lançamento de aplicações confiáveis e de alta qualidade, simplificando os testes desde o desenvolvimento, passando pelo CI/CD, até a produção.
EvalsOne
EvalsOne é uma plataforma de avaliação tudo-em-um projetada para aplicações de IA generativa. Ela capacita as equipes a …
EvalsOne é uma plataforma de avaliação tudo-em-um projetada para aplicações de IA generativa. Ela capacita as equipes a avaliar, iterar e otimizar prompts de LLM, pipelines RAG e agentes de IA sem esforço através de uma interface poderosa e intuitiva, garantindo produtos de IA robustos e competitivos.
Prompt Octopus
Uma extensão do VSCode para desenvolvedores para otimizar a engenharia de prompts. Permite a comparação lado a lado …
Uma extensão do VSCode para desenvolvedores para otimizar a engenharia de prompts. Permite a comparação lado a lado de respostas de mais de 40 LLMs (como OpenAI, Anthropic, Mistral) diretamente na base de código, ajudando você a encontrar o melhor modelo para qualquer tarefa de forma eficiente.
usevelvet
Velvet é um gateway de desenvolvedor, agora parte da Arize AI, projetado para analisar, avaliar e monitorar recursos …
Velvet é um gateway de desenvolvedor, agora parte da Arize AI, projetado para analisar, avaliar e monitorar recursos alimentados por IA. Ele fornece um conjunto abrangente para observabilidade de IA, rastreamento de LLM e gerenciamento de desempenho de modelos, ajudando os desenvolvedores a construir e aperfeiçoar aplicações de IA desde o desenvolvimento até a produção.
Ragas
Ragas é um framework Python de código aberto para avaliar e testar pipelines de Geração Aumentada por Recuperação …
Ragas é um framework Python de código aberto para avaliar e testar pipelines de Geração Aumentada por Recuperação (RAG). Ele fornece um conjunto de métricas para medir o desempenho de suas aplicações LLM, desde a recuperação de contexto até a geração de respostas. Com a confiança de líderes da indústria como LangChain e LlamaIndex, o Ragas ajuda os desenvolvedores a construir sistemas de IA mais robustos, confiáveis e precisos, identificando e mitigando problemas como alucinações e respostas irrelevantes.
Keywords AI
Keywords AI é uma plataforma abrangente de observabilidade e monitoramento de LLM projetada para startups de IA e …
Keywords AI é uma plataforma abrangente de observabilidade e monitoramento de LLM projetada para startups de IA e desenvolvedores. Ela fornece uma API unificada para implantar, testar, monitorar e otimizar fluxos de trabalho de LLM, suportando mais de 200 modelos com uma integração simples de duas linhas para ajudar as equipes a construir e lançar recursos de IA confiáveis mais rapidamente.
withpi.ai
Uma plataforma focada em desenvolvedores para criar sistemas de pontuação e avaliação ajustáveis, rápidos e econômicos para aplicações …
Uma plataforma focada em desenvolvedores para criar sistemas de pontuação e avaliação ajustáveis, rápidos e econômicos para aplicações de IA. Transforma critérios qualitativos em métricas quantitativas precisas para monitoramento de modelos, ranqueamento e otimização de RAG.
Basalt
Basalt é uma plataforma de ponta a ponta para desenvolvedores e equipes de produto construírem, avaliarem e monitorarem …
Basalt é uma plataforma de ponta a ponta para desenvolvedores e equipes de produto construírem, avaliarem e monitorarem agentes de IA confiáveis. Ele fornece um conjunto abrangente de ferramentas, incluindo avaliações automatizadas, testes A/B, engenharia de prompt com um copiloto de IA e um SDK amigável para desenvolvedores para garantir que seus recursos de IA sejam confiáveis e prontos para produção.
Evidently AI
Evidently AI é uma plataforma abrangente de teste e avaliação para produtos de IA, especializada no monitoramento de …
Evidently AI é uma plataforma abrangente de teste e avaliação para produtos de IA, especializada no monitoramento de modelos LLM e ML. Ajuda as equipes a garantir a segurança, confiabilidade e desempenho da IA por meio de avaliação automatizada, geração de dados sintéticos, testes contínuos e ataques adversariais. Construída sobre uma poderosa biblioteca de código aberto, é projetada para cientistas de dados e engenheiros de MLOps detectarem problemas como alucinações, desvio de dados e vazamentos de PII antes que afetem os usuários.
Adaline
Adaline é uma plataforma de ponta a ponta para equipes de produto e engenharia iterarem, avaliarem, implantarem e …
Adaline é uma plataforma de ponta a ponta para equipes de produto e engenharia iterarem, avaliarem, implantarem e monitorarem Modelos de Linguagem Grandes (LLMs). Ela otimiza todo o ciclo de vida da aplicação de IA, permitindo um desenvolvimento mais rápido, colaboração aprimorada e implantação confiável de recursos alimentados por IA.
Confident AI
O Confident AI é uma plataforma de avaliação e observabilidade de LLM para equipes de engenharia. Construído pelos …
O Confident AI é uma plataforma de avaliação e observabilidade de LLM para equipes de engenharia. Construído pelos criadores da biblioteca de código aberto DeepEval, ajuda a comparar, proteger e melhorar aplicações de LLM através de métricas abrangentes, testes de regressão e rastreamento detalhado para garantir um desempenho consistente da IA.
RagaAI
RagaAI é uma plataforma abrangente de teste e observabilidade de IA projetada para ajudar desenvolvedores e empresas a …
RagaAI é uma plataforma abrangente de teste e observabilidade de IA projetada para ajudar desenvolvedores e empresas a construir aplicações de IA confiáveis. Oferece um conjunto de ferramentas para observar, avaliar e depurar agentes de IA, LLMs e sistemas RAG. Os principais recursos incluem teste agentivo, guardrails em tempo real, geração de dados sintéticos e capacidades de fine-tuning. RagaAI suporta dados multimodais (LLMs, visão computacional, dados tabulares) e visa automatizar todo o ciclo de vida de garantia de qualidade de IA, desde a detecção de problemas até a resolução, garantindo implantações de IA robustas e confiáveis.
AfterQuery
A AfterQuery é um laboratório de pesquisa em IA dedicado a avançar modelos fundamentais, criando conjuntos de dados …
A AfterQuery é um laboratório de pesquisa em IA dedicado a avançar modelos fundamentais, criando conjuntos de dados de alta qualidade gerados por humanos e benchmarks livres de contaminação. Foca-se em melhorar o desempenho do modelo através de dados de treinamento superiores e avaliação rigorosa.
promptfoo
O promptfoo é um framework abrangente de teste e avaliação para Modelos de Linguagem Grandes (LLMs). Ajuda desenvolvedores …
O promptfoo é um framework abrangente de teste e avaliação para Modelos de Linguagem Grandes (LLMs). Ajuda desenvolvedores e empresas a comparar a qualidade dos prompts, avaliar o desempenho do modelo e aprimorar a segurança da IA por meio de testes sistemáticos, benchmarking e red teaming alimentado por IA. Suporta mais de 50 provedores de LLM, incluindo modelos locais, e oferece uma CLI amigável para desenvolvedores para integração perfeita nos fluxos de trabalho de desenvolvimento.
BenchLLM
Uma poderosa estrutura de código aberto para engenheiros de IA avaliarem e testarem aplicações de Modelos de Linguagem …
Uma poderosa estrutura de código aberto para engenheiros de IA avaliarem e testarem aplicações de Modelos de Linguagem Grandes (LLM). O BenchLLM fornece uma API flexível e uma CLI robusta para construir suítes de teste, gerar relatórios de qualidade e integrar a avaliação de modelos em pipelines de CI/CD, garantindo resultados previsíveis e de alta qualidade.
getmaxim
getmaxim é uma plataforma abrangente de avaliação e observabilidade de GenAI projetada para equipes de desenvolvimento de IA. …
getmaxim é uma plataforma abrangente de avaliação e observabilidade de GenAI projetada para equipes de desenvolvimento de IA. Ela permite que os usuários testem, monitorem e melhorem aplicações de IA executando avaliações extensivas em LLMs e pipelines RAG, automatizando testes e fornecendo monitoramento de produção em tempo real para garantir uma IA de alta qualidade, confiável e responsável.
Giskard
Giskard é uma plataforma de testes de IA projetada para proteger e validar aplicações baseadas em LLM. Ajuda …
Giskard é uma plataforma de testes de IA projetada para proteger e validar aplicações baseadas em LLM. Ajuda equipes empresariais a detectar e mitigar riscos como alucinações, vulnerabilidades de segurança, vieses e problemas de desempenho antes da implantação. Ao automatizar a geração de testes e permitir o red teaming contínuo, a Giskard garante que os agentes de IA sejam confiáveis, seguros e conformes.