首页
开发
测试
promptfoo

promptfoo

promptfoo 是一个全面的大型语言模型（LLM）测试和评估框架。它帮助开发者和企业通过系统性测试、基准评估和AI驱动的红队演练，来比较提示词质量、评估模型性能并增强AI安全性。它支持超过50家LLM提供商，包括本地模型，并提供对开发者友好的CLI，可无缝集成到开发工作流中。

收录时间: 2025-08-03

价格类型: 免费增值

月流量: 188.4K

社交媒体:

| | |

访问官网

点击访问 promptfoo 官网

广告这个工具更新这个工具

promptfoo 概览

promptfoo 是一款专业级工具，旨在帮助开发者和企业构建安全、可靠且高性能的AI应用程序。它是一个用于评估、测试和提高提示词质量以及各种大型语言模型（LLM）性能的综合框架。promptfoo 受到27家财富500强公司和庞大的开源社区的信赖，提供了在部署前确保AI系统稳健和安全所需的工具。

promptfoo 的核心理念是实现系统性的比较和评估。用户可以同时针对多个LLM测试不同的提示词，并排分析输出结果，并做出数据驱动的决策。这对于优化性能、降低成本以及为特定用例选择最佳模型至关重要。此外，promptfoo 非常重视安全性，提供了AI驱动的红队演练等高级功能，以主动识别提示词注入、数据泄露和生成有毒内容等漏洞。

如何使用 promptfoo

使用 promptfoo 非常简单，专为开发者设计。整个过程通常涉及命令行界面（CLI）和一个简单的YAML配置文件。

安装与初始化： 通过运行像 npx promptfoo@latest init 这样的单个命令开始。该命令会以交互方式在您的项目中设置一个配置文件（promptfooconfig.yaml）。
配置： 编辑 promptfooconfig.yaml 文件。在这里，您可以定义要测试的提示词（使用 {{variable_name}} 这样的变量进行动态输入），指定LLM提供商（例如OpenAI、Anthropic、Google或通过Ollama的本地模型），并创建您的测试用例。
定义测试用例： 在YAML文件的“tests”部分，您可以列出将用于测试提示词的各种输入（测试用例）。您还可以添加“断言”（assertions），以自动检查模型的输出是否符合特定标准（例如，不包含某些短语、是有效的JSON格式，或通过基于LLM的评估标准）。
运行评估： 在终端中执行命令 npx promptfoo@latest eval。promptfoo 将会使用每个测试用例，针对所有指定的提供商运行您的所有提示词。
查看结果： 评估完成后，运行 npx promptfoo@latest view 打开一个基于Web的用户界面。该界面以清晰的并排比较方式展示所有输出，突出显示哪些通过或未通过您的断言，使分析结果和迭代变得容易。

promptfoo 的核心功能

系统性评估： 在结构化的并排视图中比较提示词、模型和模型参数，以找到最佳配置。
AI驱动的红队演练： 自动生成并运行定制化攻击，以发现提示词注入、数据泄露、不安全的工具使用和有毒内容生成等漏洞。
模型质量基准测试： 评估和比较超过50家LLM提供商的性能、成本和速度，包括OpenAI、Google、Anthropic以及像Llama这样的本地模型。
自动断言和指标： 使用各种断言类型定义通过/失败标准，包括JavaScript表达式、Python代码，甚至基于LLM的检查（评估标准）来自动评分输出。
开发者友好的工作流： 一个强大的CLI，具有实时重新加载和缓存等功能，以加速开发周期。它以安全为先，核心工具无需SDK或云依赖。
灵活部署： 免费使用开源CLI，或选择托管云或本地企业解决方案以获得高级功能、协作和支持。

promptfoo 的使用案例

promptfoo 用途广泛，可应用于各种场景：

提示词工程： 迭代优化提示词，以从LLM获得更准确、一致和理想的响应。
模型选择： 在您的特定数据上对不同模型（例如GPT-4o vs. Claude 3 Sonnet vs. Llama 3）进行基准测试，以选择最具成本效益和性能的选项。
回归测试： 将 promptfoo 集成到您的CI/CD流水线中，以确保对提示词或底层模型的更新不会降低性能或引入新问题。
AI安全审计： 在AI应用程序被生产环境利用之前，主动测试其安全漏洞。
RAG系统质量保证： 通过测试生成答案的相关性和准确性，评估检索增强生成（RAG）系统的质量。
内容审核与安全： 确保您的AI应用程序遵守安全准则，不产生有害、有偏见或不当的内容。

promptfoo 的优势特点

promptfoo 的主要优势在于其专注于构建稳健和安全的AI。它超越了简单的提示词测试，形成了一个整体的质量和安全保证框架。它是开源的、高度灵活的，并在企业规模上经过了实战检验。通过在本地运行而无需云依赖，它确保了您数据的隐私和安全。该工具使团队能够快速而自信地行动，因为他们知道自己的AI应用程序既有效又安全。

定价和计划

promptfoo 采用 免费增值 模式。核心的命令行工具是开源的，完全免费使用。对于需要高级功能的团队和企业，promptfoo 提供付费解决方案：

开源版（免费）： 包括CLI、所有评估功能、提供商集成和社区支持。
企业版： 提供托管云或本地部署、高级红队演练功能、协作工具、专属支持等。企业版定价可通过预约演示获取。

promptfoo 评论 (0)

还没有评论，成为第一个评论者吧！

登录后即可发表评论

立即登录

promptfoo网站流量分析

地理位置

Top 5 国家/地区

🇺🇸 United States
62.58%
🇮🇳 India
12.36%
🇩🇪 Germany
10.63%
🇬🇧 United Kingdom
7.27%
🇻🇳 Vietnam
7.16%

流量来源

来源类型	百分比
直接访问	72.73%
外链引荐	26.23%
邮件	1.04%

promptfoo 替代方案

查看全部

Bolt Foundry

Bolt Foundry为开发者提供开源工具，用于对大型语言模型（LLM）进行单元测试。它通过使用称为“评分器”的结构化、可测试的提示，将提示工程转变为一门科学的、数据驱动的过程。这确保了AI输出的可靠性、一致性和可衡量性，是构建生产级应用的理想选择。

测试

2.9K

免费

Prompto

Prompto 是一款免费、开源、基于浏览器的界面，用于与各种大型语言模型（LLM）进行交互。它利用 LangChain.js 直接连接到 OpenAI、Anthropic 等提供商以及通过 Ollama 连接的本地模型，提供模型比较竞技场、提示词模板和多 AI 对话等高级功能，同时通过本地存储数据来优先保护用户隐私。

LLM 接口

2.1K

Lakera

Lakera 是一个AI原生安全平台，旨在保护生成式AI应用免受提示注入、数据泄露和合规性违规等威胁。它提供实时运行保护、由全球最大AI红队支持的持续威胁情报，以及通过单行代码即可轻松集成。Lakera 受到像 Dropbox 这样的企业信赖，以超低延迟保护所有主流模型和语言的AI代理和应用。

AI 安全

276.9K

ArtisMind

ArtisMind 是一个企业级 AI 提示工程平台，旨在利用数据驱动的多模型智能来构建、评分和完善 AI 提示。它提供科学的五阶段工作流程，用于为各种 AI 模型创建生产就绪、安全且优化的提示，解决提示注入、幻觉和质量不一致等挑战。

优化

2.1K

Refine

Refine 是一个开源的、基于 React 的框架，用于快速构建企业级内部工具、管理面板、仪表盘和 B2B 应用程序。它结合了低代码解决方案的速度与全代码开发的灵活性，并配备了 AI 驱动的生成器，可从 API 即时创建应用程序。

低代码/无代码

277.7K

PromptLayer

PromptLayer 是您用于 AI 工程的综合工作台，为提示词管理、评估和 LLM 可观测性提供统一平台。它使团队能够对每个提示词和代理进行版本控制、测试和监控，促进技术和非技术利益相关者之间的协作，从而高效地构建和扩展生产就绪的 AI 应用程序。

LLM 运维

215.3K

promptstart

promptstart 是一个先进的AI提示工程平台，旨在帮助用户为各种AI模型创建、管理和优化提示。它拥有庞大的预制提示库、智能提示构建器和AI驱动的优化器，可提升AI生成内容和代码的质量与效率。

提示工程

1.9M

CopilotKit

CopilotKit 是一个开源的全栈框架，专为开发者设计，用于构建、部署和自定义应用内 AI 协驾和代理应用。它提供前端组件、后端逻辑，并能与任何 LLM 或代理框架无缝集成，从而创建功能强大的、面向用户的 AI 助手。

框架

163.0K

TestSprite

TestSprite 是一个由人工智能驱动的测试自动化平台，旨在简化 UI 和视觉回归测试。它通过智能、自愈的测试和无代码界面，帮助开发和 QA 团队加快测试周期、提高准确性并减少维护开销。

测试

206.9K

promptbetter.ai

一个由AI驱动的提示工程平台，旨在帮助用户为大型语言模型（LLM）创建、优化和完善提示。它能增强提示的清晰度、上下文和结构，从而为各种任务生成更优质、更准确、更一致的AI输出。

提示工程

1.8M

promptfoo 分类

测试低代码/无代码提示工程 AI 安全开发开发生产力安全

promptfoo 标签

开发者工具开源提示工程 AI安全质量保证命令行界面 LLM 评估模型比较提示词测试红队演练

promptfoo AI工具对比

promptfoo VS Bolt Foundry promptfoo VS Prompto promptfoo VS Lakera promptfoo VS ArtisMind promptfoo VS Refine

promptfoo 嵌入功能

只需复制下方嵌入代码，将精美徽章贴到您的博客、文章或应用官网，即可把流量直接引导到本工具详情页，快速提升曝光与用户量！

ToolMage

如何安装?

<a href="https://www.toolmage.com/zh-hans/tool/promptfoo/" target="_blank" rel="noopener noreferrer" style="text-decoration: none; display: inline-block;"><div style="width: 280px; height: 75px; background: white; border: 2px solid #dbeafe; border-radius: 12px; box-shadow: 0 4px 12px rgba(0,0,0,0.15); padding: 16px; display: flex; align-items: center; justify-content: space-between; font-family: -apple-system, BlinkMacSystemFont, 'Segoe UI', Roboto, sans-serif;"><div style="display: flex; align-items: center; gap: 12px;"><img src="https://www.toolmage.com/media/site/favicon.ico" alt="ToolMage" style="width: 32px; height: 32px;"><div><div style="font-size: 14px; font-weight: 600; color: #111827; margin: 0; line-height: 1.2;">ToolMage</div><div style="font-size: 12px; color: #6b7280; margin: 0; line-height: 1.2;">FOLLOW US ON</div></div></div><div style="display: flex; align-items: center; gap: 8px; background: #fef2f2; border-radius: 8px; padding: 8px 12px;"><svg style="width: 16px; height: 16px; color: #ef4444;" fill="currentColor" viewBox="0 0 24 24" aria-hidden="true"><path d="M12 2L22 20H2L12 2Z"/></svg><img src="https://www.toolmage.com/embed/tool/promptfoo/likes.svg?theme=light" alt="likes" style="height: 16px; display: block;"></div></div></div></a>

关键词	每次点击费用
prompt foo	$5.66
promptfoo	$3.82
promptfoo documentation	$0.00
promptfoo skill claude	$0.00
propmtfoo	$0.00

promptfoo

社交媒体: