最好的 LLM 評估 AI工具

Plurai

Plurai是一個AI代理信任平台，透過模擬、評估和防護欄加速生產級代理的開發。它能顯著降低失敗率、策略違規和成本，相較於大型語言模型優勢明顯。

測試

5.5K

Agenta

Agenta 是一個開源的 LLMOps 平台，專為團隊建構可靠的 LLM 應用程式而設計。它將提示管理、系統性評估和可觀測性整合到單一的協作工作流程中，幫助開發人員、產品經理和領域專家從分散的流程轉向結構化的開發模式。

LLMOps

33.8K

Athina

Athina 是一個協作式 AI 開發平台，旨在幫助團隊以 10 倍的速度建構、測試和監控 LLM 應用程式。它為提示工程、評估、實驗、標註和生產監控提供了一套全面的工具。Athina 支援技術和非技術使用者，確保無縫協作和高品質、可靠的 AI 系統的部署。

LLMOps

10.6K

LangWatch

LangWatch 是一個一體化的開源平台，用於監控、評估和優化 LLM 應用。它專注於透過模擬使用者環境進行 AI 代理測試，幫助團隊在生產前捕獲回歸和邊緣案例。該平台結合了可觀測性、評估、優化和護欄功能，以確保 AI 應用的可靠性、安全性和高效能。

LLMOps

33.7K

deepchecks

Deepchecks 是一個用於評估、驗證和監控基於 LLM 的應用程式的端到端平台。它幫助人工智慧團隊定義、衡量和驗證人工智慧的進展，透過簡化從開發、CI/CD 到生產的整個測試流程，確保發布高品質、可靠的應用程式。

機器學習

85.9K

EvalsOne

EvalsOne 是一個專為生成式AI應用設計的一站式評估平台。它使團隊能夠透過一個強大直觀的介面，輕鬆地評估、迭代和優化LLM提示語、RAG流程和AI智能體，確保AI產品既健壯又具競爭力。

測試與QA

3.5K

Prompt Octopus

一款專為開發者設計的VSCode擴充功能，旨在簡化提示詞工程。它支援在程式碼庫中直接並排比較超過40種LLM（如OpenAI、Anthropic、Mistral）的回應，幫助您高效地為任何任務找到最佳模型。

提示工程

2.7K

usevelvet

Velvet是一個開發者閘道，現已併入Arize AI，專為分析、評估和監控AI功能而設計。它為AI可觀測性、LLM追蹤和模型效能管理提供了一套全面的解決方案，幫助開發者從開發到生產的全過程建構和完善AI應用。

MLOps

3.5K

Ragas

Ragas 是一個用於評估和測試檢索增強生成（RAG）流程的開源 Python 框架。它提供了一套度量標準來衡量 LLM 應用的性能，從上下文檢索到答案生成。Ragas 受到 LangChain 和 LlamaIndex 等行業領導者的信賴，透過識別和減輕幻覺、不相關響應等問題，幫助開發者建構更穩健、可靠和準確的 AI 系統。

測試

119.5K

Keywords AI

Keywords AI 是一個專為AI新創公司和開發者設計的全面LLM可觀測性與監控平台。它提供統一的API來部署、測試、監控和優化LLM工作流程，支援超過200種模型，透過簡單的兩行程式碼整合，幫助團隊更快地建構和發布可靠的AI功能。

LLM 可觀測性

14.4K

withpi.ai

一個面向開發者的平台，用於為AI應用創建可調、快速且經濟高效的評分和評估系統。它將定性標準轉化為精確的量化指標，用於模型監控、排名和RAG優化。

模型評估

2.8K

Basalt

Basalt 是一個為開發者和產品團隊設計的端到端平台，用於建構、評估和監控可靠的 AI 代理。它提供了一套全面的工具，包括自動化評估、A/B 測試、帶 AI 助理的提示工程以及對開發者友善的 SDK，確保您的 AI 功能值得信賴並可隨時投入生產。

AI 智能體開發

11.2K

Evidently AI

Evidently AI 是一個面向AI產品的綜合性測試與評估平台，專注於LLM和ML模型的監控。它透過自動化評估、合成數據生成、持續測試和對抗性攻擊，幫助團隊確保AI的安全性、可靠性和性能。該平台基於一個強大的開源庫建構，專為數據科學家和MLOps工程師設計，用於在問題影響用戶前檢測幻覺、數據漂移和PII洩漏等問題。

測試

164.9K

Adaline

Adaline 是一個為產品和工程團隊設計的一站式端到端平台，用於迭代、評估、部署和監控大型語言模型（LLM）。它簡化了整個人工智慧應用的生命週期，實現了更快的開發、增強的協作以及可靠的AI功能部署。

LLMOps

68.7K

Confident AI

Confident AI 是一個面向工程團隊的 LLM 評估與可觀測性平台。由開源庫 DeepEval 的創建者打造，它透過全面的指標、回歸測試和詳細的追蹤來幫助基準測試、保障和改進 LLM 應用，確保 AI 效能的穩定性。

測試

130.5K

RagaAI 是一個全面的人工智慧測試與可觀測性平台，旨在協助開發者和企業建構可靠的 AI 應用。它提供了一整套工具，用於觀察、評估和偵錯 AI 代理、大型語言模型（LLM）和 RAG 系統。核心功能包括代理測試、即時護欄、合成資料生成和微調能力。RagaAI 支援多模態資料（LLM、電腦視覺、表格資料），致力於自動化整個 AI 品質保證生命週期，從問題偵測到解決，確保 AI 部署的穩健性和可信度。

測試

26.6K