Les meilleurs de l'année Évaluation de LLM Outil d'IA

Plurai

Plurai est une plateforme de confiance pour agents IA qui accélère le développement d'agents prêts pour la production …

Plurai est une plateforme de confiance pour agents IA qui accélère le développement d'agents prêts pour la production grâce à la simulation, l'évaluation et les guardrails. Elle réduit considérablement les taux d'échec, les violations de politique et les coûts par rapport aux grands modèles de langage.

Test

5.0K

Agenta

Agenta est une plateforme LLMOps open-source conçue pour que les équipes construisent des applications LLM fiables. Elle intègre …

Agenta est une plateforme LLMOps open-source conçue pour que les équipes construisent des applications LLM fiables. Elle intègre la gestion des prompts, l'évaluation systématique et l'observabilité dans un flux de travail collaboratif unique, aidant les développeurs, les chefs de produit et les experts du domaine à passer de processus dispersés à un développement structuré.

LLMOps

33.2K

Athina

Athina est une plateforme de développement d'IA collaborative conçue pour aider les équipes à construire, tester et surveiller …

Athina est une plateforme de développement d'IA collaborative conçue pour aider les équipes à construire, tester et surveiller les applications LLM 10 fois plus rapidement. Elle fournit une suite complète d'outils pour l'ingénierie de prompts, l'évaluation, l'expérimentation, l'annotation et la surveillance en production. Athina soutient les utilisateurs techniques et non techniques, assurant une collaboration transparente et le déploiement de systèmes d'IA fiables et de haute qualité.

LLMOps

10.0K

LangWatch

LangWatch est une plateforme open-source tout-en-un pour surveiller, évaluer et optimiser les applications LLM. Elle se spécialise dans …

LangWatch est une plateforme open-source tout-en-un pour surveiller, évaluer et optimiser les applications LLM. Elle se spécialise dans le test d'agents IA via des environnements utilisateur simulés, aidant les équipes à détecter les régressions et les cas limites avant la production. La plateforme combine l'observabilité, l'évaluation, l'optimisation et des garde-fous pour garantir des applications IA fiables, sécurisées et performantes.

LLMOps

33.2K

deepchecks

Deepchecks est une plateforme de bout en bout pour évaluer, valider et surveiller les applications basées sur les …

Deepchecks est une plateforme de bout en bout pour évaluer, valider et surveiller les applications basées sur les LLM. Elle aide les équipes d'IA à définir, mesurer et valider les progrès de l'IA, garantissant la publication d'applications fiables et de haute qualité en rationalisant les tests du développement à la production, en passant par le CI/CD.

Apprentissage automatique

85.3K

EvalsOne

EvalsOne est une plateforme d'évaluation tout-en-un conçue pour les applications d'IA générative. Elle permet aux équipes d'évaluer, d'itérer …

EvalsOne est une plateforme d'évaluation tout-en-un conçue pour les applications d'IA générative. Elle permet aux équipes d'évaluer, d'itérer et d'optimiser sans effort les prompts LLM, les pipelines RAG et les agents IA via une interface puissante et intuitive, garantissant des produits IA robustes et compétitifs.

Tests & QA

3.0K

Prompt Octopus

Une extension VSCode pour les développeurs afin de rationaliser l'ingénierie des prompts. Elle permet de comparer côte à …

Une extension VSCode pour les développeurs afin de rationaliser l'ingénierie des prompts. Elle permet de comparer côte à côte les réponses de plus de 40 LLM (comme OpenAI, Anthropic, Mistral) directement dans la base de code, vous aidant à trouver efficacement le meilleur modèle pour n'importe quelle tâche.

Ingénierie de prompt

2.2K

usevelvet

Velvet est une passerelle pour développeurs, désormais intégrée à Arize AI, conçue pour analyser, évaluer et surveiller les …

Velvet est une passerelle pour développeurs, désormais intégrée à Arize AI, conçue pour analyser, évaluer et surveiller les fonctionnalités basées sur l'IA. Elle fournit une suite complète pour l'observabilité de l'IA, le traçage des LLM et la gestion des performances des modèles, aidant les développeurs à construire et perfectionner des applications d'IA du développement à la production.

MLOps

2.9K

Ragas

Ragas est un framework Python open-source pour l'évaluation et le test des pipelines de Génération Augmentée par la …

Ragas est un framework Python open-source pour l'évaluation et le test des pipelines de Génération Augmentée par la Récupération (RAG). Il fournit une suite de métriques pour mesurer la performance de vos applications LLM, de la récupération de contexte à la génération de réponses. Approuvé par des leaders de l'industrie comme LangChain et LlamaIndex, Ragas aide les développeurs à construire des systèmes d'IA plus robustes, fiables et précis en identifiant et en atténuant les problèmes tels que les hallucinations et les réponses non pertinentes.

Test

119.0K

Keywords AI

Keywords AI est une plateforme complète d'observabilité et de surveillance des LLM conçue pour les startups en IA …

Keywords AI est une plateforme complète d'observabilité et de surveillance des LLM conçue pour les startups en IA et les développeurs. Elle fournit une API unifiée pour déployer, tester, surveiller et optimiser les flux de travail des LLM, prenant en charge plus de 200 modèles avec une intégration simple en deux lignes pour aider les équipes à construire et à livrer plus rapidement des fonctionnalités d'IA fiables.

Observabilité des LLM

13.9K

withpi.ai

Une plateforme axée sur les développeurs pour créer des systèmes de notation et d'évaluation ajustables, rapides et rentables …

Une plateforme axée sur les développeurs pour créer des systèmes de notation et d'évaluation ajustables, rapides et rentables pour les applications d'IA. Elle transforme les critères qualitatifs en métriques quantitatives précises pour la surveillance de modèles, le classement et l'optimisation RAG.

Évaluation du modèle

2.3K

Basalt

Basalt est une plateforme de bout en bout pour les développeurs et les équipes produit afin de construire, …

Basalt est une plateforme de bout en bout pour les développeurs et les équipes produit afin de construire, évaluer et surveiller des agents IA fiables. Elle fournit une suite complète d'outils, y compris des évaluations automatisées, des tests A/B, de l'ingénierie de prompt avec un copilote IA, et un SDK convivial pour les développeurs afin de garantir que vos fonctionnalités IA sont dignes de confiance et prêtes pour la production.

Développement d'Agents IA

10.7K

Evidently AI

Evidently AI est une plateforme complète de test et d'évaluation pour les produits d'IA, spécialisée dans la surveillance …

Evidently AI est une plateforme complète de test et d'évaluation pour les produits d'IA, spécialisée dans la surveillance des modèles LLM et ML. Elle aide les équipes à garantir la sécurité, la fiabilité et les performances de l'IA grâce à une évaluation automatisée, la génération de données synthétiques, des tests continus et des attaques adverses. Basée sur une puissante bibliothèque open source, elle est conçue pour les data scientists et les ingénieurs MLOps afin de détecter les problèmes tels que les hallucinations, la dérive des données et les fuites de PII avant qu'ils n'affectent les utilisateurs.

Test

164.4K

Adaline

Adaline est une plateforme de bout en bout pour les équipes produit et ingénierie afin d'itérer, évaluer, déployer …

Adaline est une plateforme de bout en bout pour les équipes produit et ingénierie afin d'itérer, évaluer, déployer et surveiller les grands modèles de langage (LLM). Elle rationalise l'ensemble du cycle de vie des applications d'IA, permettant un développement plus rapide, une collaboration améliorée et un déploiement fiable des fonctionnalités basées sur l'IA.

LLMOps

68.1K

Confident AI

Confident AI est une plateforme d'évaluation et d'observabilité des LLM pour les équipes d'ingénierie. Conçue par les créateurs …

Confident AI est une plateforme d'évaluation et d'observabilité des LLM pour les équipes d'ingénierie. Conçue par les créateurs de la bibliothèque open-source DeepEval, elle aide à évaluer, sécuriser et améliorer les applications LLM grâce à des métriques complètes, des tests de régression et un traçage détaillé pour garantir des performances IA constantes.

Test

130.0K

RagaAI

RagaAI est une plateforme complète de test et d'observabilité de l'IA conçue pour aider les développeurs et les …

RagaAI est une plateforme complète de test et d'observabilité de l'IA conçue pour aider les développeurs et les entreprises à créer des applications d'IA fiables. Elle offre une suite d'outils pour observer, évaluer et déboguer les agents d'IA, les LLM et les systèmes RAG. Les fonctionnalités clés incluent les tests agentiques, les garde-fous en temps réel, la génération de données synthétiques et les capacités de réglage fin (fine-tuning). RagaAI prend en charge les données multimodales (LLM, vision par ordinateur, données tabulaires) et vise à automatiser l'ensemble du cycle de vie de l'assurance qualité de l'IA, de la détection des problèmes à leur résolution, garantissant des déploiements d'IA robustes et dignes de confiance.

Test

26.0K

AfterQuery

AfterQuery est un laboratoire de recherche en IA dédié à l'avancement des modèles fondamentaux en créant des ensembles …

AfterQuery est un laboratoire de recherche en IA dédié à l'avancement des modèles fondamentaux en créant des ensembles de données de haute qualité générés par l'homme et des benchmarks sans contamination. Il se concentre sur l'amélioration des performances des modèles grâce à des données d'entraînement supérieures et une évaluation rigoureuse.

Entraînement de modèle

179.0K

promptfoo

promptfoo est un framework complet de test et d'évaluation pour les grands modèles de langage (LLM). Il aide …

promptfoo est un framework complet de test et d'évaluation pour les grands modèles de langage (LLM). Il aide les développeurs et les entreprises à comparer la qualité des prompts, à évaluer les performances des modèles et à renforcer la sécurité de l'IA grâce à des tests systématiques, du benchmarking et du red teaming alimenté par l'IA. Il prend en charge plus de 50 fournisseurs de LLM, y compris les modèles locaux, et offre une CLI conviviale pour les développeurs pour une intégration transparente dans les flux de travail de développement.

Test

190.7K

Gratuit

BenchLLM

Un puissant framework open-source pour les ingénieurs en IA afin d'évaluer et de tester les applications de Grands …

Un puissant framework open-source pour les ingénieurs en IA afin d'évaluer et de tester les applications de Grands Modèles de Langage (LLM). BenchLLM fournit une API flexible et une CLI robuste pour construire des suites de tests, générer des rapports de qualité et intégrer l'évaluation des modèles dans les pipelines CI/CD, garantissant des résultats prévisibles et de haute qualité.

Test et Débogage

2.2K

getmaxim

getmaxim est une plateforme complète d'évaluation et d'observabilité GenAI conçue pour les équipes de développement IA. Elle permet …

getmaxim est une plateforme complète d'évaluation et d'observabilité GenAI conçue pour les équipes de développement IA. Elle permet aux utilisateurs de tester, surveiller et améliorer les applications IA en exécutant des évaluations approfondies sur les LLM et les pipelines RAG, en automatisant les tests et en fournissant une surveillance de la production en temps réel pour garantir une IA de haute qualité, fiable et responsable.

Test

110.5K

Giskard

Giskard est une plateforme de test d'IA conçue pour sécuriser et valider les applications basées sur les LLM. …

Giskard est une plateforme de test d'IA conçue pour sécuriser et valider les applications basées sur les LLM. Elle aide les équipes d'entreprise à détecter et à atténuer les risques tels que les hallucinations, les vulnérabilités de sécurité, les biais et les problèmes de performance avant le déploiement. En automatisant la génération de tests et en permettant le red teaming continu, Giskard garantit que les agents d'IA sont fiables, sûrs et conformes.

Test

54.6K

Les meilleurs de l'année Évaluation de LLM Outil d'IA

Plurai

Agenta

Athina

LangWatch

deepchecks

EvalsOne

Prompt Octopus

usevelvet

Ragas

Keywords AI

withpi.ai

Basalt

Evidently AI

Adaline

Confident AI

RagaAI

AfterQuery

promptfoo

BenchLLM

getmaxim

Giskard

Étiquettes liées à Évaluation de LLM

Rechercher des outils d'IA

Recherches populaires

Catégorie

Choisir la langue