最好的 LLM 评估 AI工具

Plurai

Plurai是一个AI代理信任平台，通过仿真、评估和防护栏加速生产级代理的开发。它能显著降低失败率、策略违规和成本，相比大型语言模型优势明显。

测试

5.4K

Agenta

Agenta 是一个开源的 LLMOps 平台，专为团队构建可靠的 LLM 应用程序而设计。它将提示管理、系统性评估和可观测性集成到单一的协作工作流中，帮助开发人员、产品经理和领域专家从分散的流程转向结构化的开发模式。

LLMOps

33.7K

Athina

Athina 是一个协作式 AI 开发平台，旨在帮助团队以 10 倍的速度构建、测试和监控 LLM 应用程序。它为提示工程、评估、实验、标注和生产监控提供了一套全面的工具。Athina 支持技术和非技术用户，确保无缝协作和高质量、可靠的 AI 系统的部署。

LLMOps

10.5K

LangWatch

LangWatch 是一个一体化的开源平台，用于监控、评估和优化 LLM 应用。它专注于通过模拟用户环境进行 AI 代理测试，帮助团队在生产前捕获回归和边缘案例。该平台结合了可观测性、评估、优化和护栏功能，以确保 AI 应用的可靠性、安全性和高性能。

LLMOps

33.6K

deepchecks

Deepchecks 是一个用于评估、验证和监控基于 LLM 的应用程序的端到端平台。它帮助人工智能团队定义、衡量和验证人工智能的进展，通过简化从开发、CI/CD 到生产的整个测试流程，确保发布高质量、可靠的应用程序。

机器学习

85.8K

EvalsOne

EvalsOne 是一个专为生成式AI应用设计的一站式评估平台。它使团队能够通过一个强大直观的界面，轻松地评估、迭代和优化LLM提示语、RAG流程和AI智能体，确保AI产品既健壮又具竞争力。

测试与QA

3.4K

Prompt Octopus

一款专为开发者设计的VSCode扩展，旨在简化提示词工程。它支持在代码库中直接并排比较超过40种LLM（如OpenAI、Anthropic、Mistral）的响应，帮助您高效地为任何任务找到最佳模型。

提示工程

2.6K

usevelvet

Velvet是一个开发者网关，现已并入Arize AI，专为分析、评估和监控AI功能而设计。它为AI可观测性、LLM追踪和模型性能管理提供了一套全面的解决方案，帮助开发者从开发到生产的全过程构建和完善AI应用。

MLOps

3.4K

Ragas

Ragas 是一个用于评估和测试检索增强生成（RAG）流程的开源 Python 框架。它提供了一套度量标准来衡量 LLM 应用的性能，从上下文检索到答案生成。Ragas 受到 LangChain 和 LlamaIndex 等行业领导者的信赖，通过识别和减轻幻觉、不相关响应等问题，帮助开发者构建更健壮、可靠和准确的 AI 系统。

测试

119.4K

Keywords AI

Keywords AI 是一个专为AI初创公司和开发者设计的全面LLM可观测性与监控平台。它提供统一的API来部署、测试、监控和优化LLM工作流，支持超过200种模型，通过简单的两行代码集成，帮助团队更快地构建和发布可靠的AI功能。

LLM 可观测性

14.3K

withpi.ai

一个面向开发者的平台，用于为AI应用创建可调、快速且经济高效的评分和评估系统。它将定性标准转化为精确的量化指标，用于模型监控、排名和RAG优化。

模型评估

2.8K

Basalt

Basalt 是一个为开发者和产品团队设计的端到端平台，用于构建、评估和监控可靠的 AI 代理。它提供了一套全面的工具，包括自动化评估、A/B 测试、带 AI 助手的提示工程以及对开发者友好的 SDK，确保您的 AI 功能值得信赖并可随时投入生产。

AI 智能体开发

11.2K

Evidently AI

Evidently AI 是一个面向AI产品的综合性测试与评估平台，专注于LLM和ML模型的监控。它通过自动化评估、合成数据生成、持续测试和对抗性攻击，帮助团队确保AI的安全性、可靠性和性能。该平台基于一个强大的开源库构建，专为数据科学家和MLOps工程师设计，用于在问题影响用户前检测幻觉、数据漂移和PII泄漏等问题。

测试

164.8K

Adaline

Adaline 是一个为产品和工程团队设计的一站式端到端平台，用于迭代、评估、部署和监控大型语言模型（LLM）。它简化了整个人工智能应用的生命周期，实现了更快的开发、增强的协作以及可靠的AI功能部署。

LLMOps

68.6K

Confident AI

Confident AI 是一个面向工程团队的 LLM 评估和可观测性平台。由开源库 DeepEval 的创建者打造，它通过全面的指标、回归测试和详细的追踪来帮助基准测试、保障和改进 LLM 应用，确保 AI 性能的稳定性。

测试

130.4K

RagaAI 是一个全面的人工智能测试与可观测性平台，旨在帮助开发者和企业构建可靠的 AI 应用。它提供了一整套工具，用于观察、评估和调试 AI 代理、大语言模型（LLM）和 RAG 系统。核心功能包括代理测试、实时护栏、合成数据生成和微调能力。RagaAI 支持多模态数据（LLM、计算机视觉、表格数据），致力于自动化整个 AI 质量保障生命周期，从问题检测到解决，确保 AI 部署的稳健性和可信度。

测试

26.5K