最好的语音识别 AI工具

TongueType

TongueType 是一款完全本地化、离线运行的 macOS 语音输入应用。它使用 Whisper AI 模型在 Apple 芯片上运行，无需联网、无需账户、无需订阅。只需按住快捷键说话，文字即刻出现。永久免费，可选择一次性购买 Pro 版。

Voice Input

2.9K

MiMo

MiMo是小米推出的先进大模型AI工具，旨在通过深度理解语言和感知物理世界来重新定义智能。它作为智能伙伴，提供预测性协助、创意生成，并促进人机无缝协作。

Largelanguagemodels

1.2M

免费

AlphaKhoj

AlphaKhoj是一款由神经科学家设计的AI驱动应用程序，旨在帮助5-15岁儿童提高阅读流畅性，尤其适用于阅读障碍儿童和印度语言学习者。它通过游戏化、互动式练习，利用主动回忆和个性化学习路径，建立自动单词识别能力，提升阅读速度。

语言学习

3.5K

Hello Nabu

一款由人工智能驱动的语言学习平台，通过个性化的故事驱动课程帮助用户学习英语、法语、西班牙语等语言。它配备了人工智能导师、实时反馈、语音识别以及从A1到C1级别的CEFR对齐内容。

语言学习

2.9K

Models

Hathora 的 Models 提供精选的低延迟 ASR、TTS 和 LLM 模型目录，专为语音 AI 和实时应用优化。开发者可以快速探索、测试和部署生产就绪模型，通过交互式沙盒和直接 API 访问，无缝集成到语音代理和其他应用中。

语音识别

3.4K

OneNine

OneNine是面向AI的数据供应链，专注于为领先的AI公司提供高质量、文化真实、人工标注的低资源语言数据集。它弥合了语言鸿沟，使全球AI模型更具包容性和准确性。

数据标注

2.7K

Gabber

Gabber是一个强大的平台，用于构建能够看、听、说的实时多模态AI应用程序。它为视觉语言模型（VLM）、文本转语音（TTS）和语音转文本（STT）提供低延迟推理，并结合基于图的编排系统，实现快速开发和部署。

实时AI

4.8K

VoiceGecko

VoiceGecko 是一款桌面应用程序，提供即时、高精度的语音转文本听写功能。它几乎兼容所有应用程序，允许用户通过语音进行输入，从而节省时间、减少拼写错误并改善工作流程，尤其适合开发人员和 AI 用户。

转录

2.8K

Ello

Ello是一款面向幼儿园至三年级儿童的AI驱动阅读教练和陪伴应用。它利用先进的语音识别和自适应学习技术，倾听、教导并帮助孩子们以有趣和引人入胜的方式成为自信、独立的阅读者。

阅读

2.7K

DefinedCrowd

DefinedCrowd是一家领先的高质量AI训练数据提供商。它利用全球众包力量为机器学习模型收集、标注和丰富数据，专注于语音、自然语言处理和计算机视觉领域。它提供全托管服务，帮助企业大规模构建稳健且无偏见的AI应用。

数据标注

2.0B

Speech Studio

Speech Studio 是微软 Azure 提供的一套功能全面的 AI 工具，使开发人员能够构建具有高级语音功能的应用程序。它提供高精度的语音转文本、听感自然的文本转语音、实时语音翻译和说话人识别功能。用户可以创建自定义语音模型和对话式界面，使其成为适用于各种语音解决方案的多功能平台。

语音处理

154.5K

Luca.ai

luca.ai是一款人工智能驱动的阅读导师，旨在提高儿童的阅读技能和参与度。它根据孩子的兴趣和阅读挑战创建个性化故事，利用先进的语音识别技术来识别和解决特定困难，例如与阅读障碍相关的困难。该平台提供自适应学习计划，以培养年轻读者的读写能力和自信心。

语言学习

6.6K

Lingostar

Lingostar 是一个由人工智能驱动的语言学习平台，旨在通过逼真的对话练习帮助用户实现流利口语。它能针对发音、语法和词汇提供个性化的实时反馈。凭借角色扮演、自适应学习路径和智能词汇构建等功能，Lingostar 为旅行、工作或个人成长提供了一种沉浸式且高效的语言学习方式。

语言学习

3.8K

免费

OpenVoiceOS

OpenVoiceOS 是一个由社区驱动的开源语音 AI 平台，用于创建自定义、私密且安全的语音控制界面。它可在树莓派和 Linux 桌面等各种硬件上运行，为开发者和 DIY 爱好者提供了一个灵活的、基于插件的架构。

语音与语音

16.9K

Literably

Literably 是一款面向 K-12 学校的人工智能驱动的读写能力评估工具。它能听学生朗读，自动转录其阅读内容，并为教师提供关于流利度、准确性和理解力的详细数据，从而节省数小时的人工评估时间。

读写能力评估

52.2K

Vocol.ai

Vocol.ai 是一款一体化的人工智能语音协作平台，可将口头对话转化为可行的见解。它提供高精度的多语言（英语、中文、日语）转录、人工智能生成的摘要、关键主题和行动项。该平台专为团队设计，通过自动化会议、访谈和讲座的笔记和分析等手动工作，简化工作流程、加强协作并提高生产力。

转录

19.9K

voice_vector

voice_vector 是一个功能强大的人工智能语音平台，提供高保真声音克隆、富有表现力的文本转语音（TTS）和精准的语音识别功能。凭借其独特的“按量付费”与订阅混合模式，它为内容创作者、开发者和企业提供了灵活且经济高效的解决方案。您可以创建无限的私人克隆声音，并通过强大的API将高级语音功能集成到您的项目中。

语音克隆

4.4K

Lingvanex

Lingvanex提供先进的人工智能语言解决方案，包括机器翻译和语音识别。它专注于为企业提供安全的本地化部署软件，确保数据隐私。支持超过100种语言，为文本、文档和网站提供可定制、高速的翻译，满足企业级需求。

翻译

921.8K

Ello

Ello是一款专为幼儿园至三年级儿童设计的人工智能阅读伴侣应用。它扮演着一个个人伴读导师的角色，能倾听您孩子的朗读，提供实时帮助，并利用自适应学习技术，将他们培养成自信、热情的阅读者。该应用建立在经过验证的“阅读科学”方法论之上。

语言学习

35.8K

Ask Maya

Ask Maya 是一款由人工智能驱动的对话伙伴，旨在帮助您练习和掌握英语口语。通过实时的语音对话，提高您的流利度、发音和自信心，让您的口语听起来更像母语者。这是一种有趣、便捷且无压力的学习方式。

语言学习

3.7K

iFlytek Spark

讯飞星火是科大讯飞推出的综合性AI助手和大型语言模型平台。它在深度推理、多模态交互和语言理解方面表现卓越，支持超过130种语言。该平台提供一套完整的工具，包括对话式AI、AI搜索、开发者API和模型即服务（MaaS）平台，为个人用户和教育、医疗、金融等行业的企业赋能。

助手

320.6K

Accent Guesser

Accent Guesser 是一款由人工智能驱动的工具，它能通过分析您的声音来精准识别您的口音。利用先进的深度学习技术，它能即时提供关于您语音模式和语言背景的洞察。对于语言学习者、科技爱好者和充满好奇心的用户来说，这是一个有趣且引人入胜的方式，可以探索全球口音并提升沟通技巧。只需在网站上录制您的声音，几秒钟内即可发现您口音的独特之处。

语音分析

6.0K

FileTranscribe

FileTranscribe 是一款免费的人工智能工具，可快速准确地转录音频和视频文件。它提供说话人识别、自动摘要和会议纪要生成等高级功能，是学生、专业人士和内容创作者轻松将语音转换为文本的理想选择。

转录

3.8K

免费

Najva

Najva 是一款免费的原生 macOS 应用，它结合了离线、设备端语音识别与 GPT-4、Claude 3 等先进的 AI 模型。它能即时将您的声音转化为智能文本，为作家、开发者和专业人士提供无与伦比的隐私保护和生产力。其特色功能包括上下文感知、屏幕截图集成以及对众多 AI 提供商的支持。

转录

2.7K

Flow

Flow是一款由AI驱动的语言学习应用程序，旨在通过自然、日常的练习帮助您实现流利口语。与AI导师进行逼真的对话，获得个性化反馈，以直观和沉浸式的方式学习。它是您掌握一门新语言的个人向导。

语言学习

2.7K

Tandem GPT

Tandem GPT 是一款由人工智能驱动的语言伙伴，旨在通过真实、互动的对话帮助您掌握新语言。您可以全天候与AI导师进行口语和文本练习，使用预设场景或创建自己的场景。它支持语音消息，提供一个安全、无压力的环境，帮助您建立流利度和自信心，以应对真实世界的情境。

语言学习

4.5K

Buddy.ai

Buddy.ai是一款专为3-7岁儿童设计的人工智能英语家教应用。它利用语音识别和游戏化课程，提供个性化的一对一的口语练习。该应用以有趣、互动的方式，帮助孩子们学习超过1500个英语单词和短语，掌握发音并建立口语自信，而费用仅为真人家教的一小部分。

语言学习

68.0K

Muchtodo

Muchtodo 是一款由人工智能驱动的任务管理平台，可将您的语音转换为项目、任务和笔记。它旨在通过最大限度地减少打字来提高生产力，让您能够即时捕捉想法。它支持57种语言，并包含一个番茄钟计时器以增强专注力，确保流程无缝高效。

任务管理

2.6K

Falou

Falou是一款由AI驱动的语言学习应用，旨在提高您的会话技巧。在真实场景中练习口语，获得即时发音反馈，建立流利说外语的自信。它就像一个全天候待命的私人语言导师。

语言学习

7.6K

Botjet

Botjet 是一个端到端的对话式 AI 平台，供企业构建、部署和管理智能的全渠道聊天机器人。它专注于创建类似真人的对话流，以在网站、移动应用、IVRS 和社交媒体上实现更深层次的客户互动。该平台提供可视化流程设计器、强大的 NLU 和灵活的部署选项（云或本地），以实现任务自动化和提升客户支持。

聊天机器人

2.8K

Audiogest

Audiogest 是一款由人工智能驱动的工具，可在 99 多种语言中快速准确地转录和总结音频和视频文件。它具有说话人识别、可自定义的人工智能笔记和灵活的按需付费定价。它非常适合学生、研究人员和专业人士，可以节省数小时的人工工作，同时通过位于欧盟的服务器确保数据隐私。无需订阅即可获得快速、实惠且可靠的转录稿和摘要。

转录

3.9K

Wavify

Wavify 是一个面向开发者的设备端语音AI平台。它提供高性能、注重隐私和跨平台的SDK，可将语音转文本、唤醒词检测和语音意图识别等功能集成到任何应用程序中。它确保了云级别的准确性，同时在用户设备本地处理所有数据，保障隐私和离线功能。

语音识别

2.8K

David AI

David AI 提供高质量、研究级的音频数据集，用于训练先进的语音和对话式AI模型。它提供多样化、大规模的数据集，包括多语言对话、多说话人音频和专家对话，并可选择创建自定义数据集以解锁新的AI功能。

数据集

24.1K

Sindarin

Sindarin 是一个为开发者打造的加速云平台，用于构建低延迟、对话式语音AI。它提供API和无代码平台，以创建高响应性、听起来自然的AI角色。凭借行业领先的轮流对话和无缝打断处理能力，Sindarin能够为客户服务、健康、游戏等应用创造真正的互动式语音体验，并提供企业级的规模和可靠性。

API 平台

4.9K

MediScoper

MediScoper是一款面向医疗保健专业人员的AI辅助平台，旨在简化临床工作流程。它提供高精度的医患交流音频转录，自动生成符合SOAP标准的分析报告，提供实时诊断建议，并支持60多种语言的翻译。这使医生能够减少行政工作，更专注于患者护理，同时确保数据安全和保密。

医疗转录

2.7K

Krater.ai

Krater.ai 是一款一体化的人工智能超级应用，将超过50种AI工具集成于单一平台。它提供内容生成、图像创作、音频处理等多种解决方案，只需一次订阅即可全部使用。该工具专为创作者、营销人员和企业家设计，旨在通过统一、友好的用户界面取代多个专业应用，从而节省时间、降低成本并简化工作流程。

多合一

171.6K

Languate

Languate 是一个由AI驱动的语言学习平台，旨在提升您的会话技巧。它通过听、说、读、写的主动练习，帮助您将理论知识转化为实践自信。获取即时、详细的发音反馈，以跟踪和提高您在英语、西班牙语、德语等语言中的流利度。

语言学习

3.2K

AppTek.ai

AppTek.ai是人工智能和机器学习语言技术的全球领导者。它为自动语音识别（ASR）、神经机器翻译（NMT）、自然语言处理（NLP）和文本转语音（TTS）提供企业级解决方案，服务于媒体、呼叫中心和政府等行业。

转录

4.6K

Transkriptor 是一款由人工智能驱动的转录服务，可将音频和视频文件转换为超过100种语言的准确、可编辑的文本。它配备了一个人工智能助手，用于总结内容、识别发言者和提取行动要点。该工具非常适合会议、访谈、讲座和内容创作，准确率高达99%，并与Zoom、Google Meet和Microsoft Teams等平台集成。它提供网页版、移动应用和Chrome扩展程序，可简化笔记记录，并从您的对话中创建可搜索的知识库。

转录

1.1M