年最高の 音声認識 AIツール

Discover the most powerful 音声認識 AI tools, including DefinedCrowd、MiMo、Transkriptor、ELSA Speak、Lingvanex、AssemblyAI、SoundHound AI、Speak、iFlytek Spark、Krater.ai, and other 音声認識 AI tools.

TongueType

TongueType

TongueTypeは100%ローカル、オフラインのmacOS用音声入力アプリです。Apple SiliconでWhisper AIモデルをローカルで実行し、クラウド、アカウント、サブスクリプションを必要としません。ホットキーを押して話すだけで、文字がすぐに表示されます。永久無料で、Proアップグレードも選択できます。

2.3K
MiMo

MiMo

MiMoはXiaomiの先進的な大規模AIモデルで、深い言語理解と現実世界の物理的知覚を統合することで知能を再定義するように設計されています。知的なコンパニオンとして、予測支援、創造的生成を提供し、シームレスな人間と機械の協調を促進します。

1.2M
無料
AlphaKhoj

AlphaKhoj

AlphaKhojは、神経科学者によって設計されたAI搭載アプリで、5〜15歳の子供たちの読解流暢性を向上させるのに役立ちます。特に失読症の子供やインドの言語学習者に適しています。ゲーム化されたインタラクティブな演習を通じて、能動的想起とパーソナライズされた学習パスを活用し、自動単語認識を構築し、読解速度を高めます。

2.9K
Hello Nabu

Hello Nabu

AIを活用した言語学習プラットフォームで、パーソナライズされたストーリー主導のカリキュラムを用いて、英語、フランス語、スペイン語などの言語学習を支援します。AIチューター、リアルタイムフィードバック、音声認識、A1からC1までのCEFR準拠コンテンツが特徴です。

2.4K
Models

Models

HathoraのModelsは、音声AIおよびリアルタイムアプリケーション向けに最適化された、低遅延のASR、TTS、LLMモデルの厳選されたカタログを提供します。開発者は、インタラクティブなサンドボックスと直接APIアクセスを通じて、本番環境対応のモデルを迅速に探索、テスト、デプロイし、音声エージェントやその他のアプリケーションにシームレスに統合できます。

2.8K
OneNine

OneNine

OneNineはAIのためのデータサプライチェーンであり、主要なAI企業に、十分に活用されていない言語で高品質で文化的に本物の人間がラベル付けしたデータセットを提供することに特化しています。言語のギャップを埋め、より包括的で正確なAIモデルを世界中で実現します。

2.2K
Gabber

Gabber

Gabberは、見て、聞いて、話すことができるリアルタイムのマルチモーダルAIアプリケーションを構築するための強力なプラットフォームです。VLM(Vision Language Models)、TTS(Text-to-Speech)、STT(Speech-to-Text)の低遅延推論と、迅速な開発とデプロイメントのためのグラフベースのオーケストレーションシステムを組み合わせて提供します。

4.2K
VoiceGecko

VoiceGecko

VoiceGeckoは、即時かつ高精度な音声テキスト変換ディクテーションを提供するデスクトップアプリケーションです。ほぼすべてのアプリで動作し、ユーザーが声で入力することで時間を節約し、タイプミスを減らし、ワークフローを改善します。特に開発者やAIユーザーに最適です。

2.3K
Ello

Ello

Elloは、幼稚園から小学3年生までの子供向けのAI搭載読書コーチ兼コンパニオンアプリです。高度な音声認識と適応学習技術を使用し、子供たちが楽しく魅力的な方法で自信を持って自立した読書家になるのを、聞き、教え、支援します。

2.1K
DefinedCrowd

DefinedCrowd

DefinedCrowdは、高品質なAIトレーニングデータを提供するリーディングカンパニーです。グローバルなクラウドワーカーを活用し、機械学習モデル向けのデータの収集、アノテーション、エンリッチメントを行い、特に音声、NLP、コンピュータビジョンに特化しています。企業が堅牢でバイアスのないAIアプリケーションを大規模に構築できるよう、フルマネージドサービスを提供します。

2.0B
Speech Studio

Speech Studio

Speech Studioは、Microsoft Azureが提供するAI搭載ツールの包括的なスイートで、開発者が高度な音声機能を備えたアプリケーションを構築できるようにします。高精度の音声テキスト変換、自然なテキスト読み上げ、リアルタイム音声翻訳、話者認識を提供します。ユーザーはカスタム音声モデルや対話型インターフェースを作成でき、幅広い音声対応ソリューションに対応する多用途プラットフォームです。

154.0K
Luca.ai

Luca.ai

luca.aiは、子供たちの読解力とエンゲージメントを向上させるために設計されたAI搭載の読書チューターです。子供の興味や読書の課題に基づいてパーソナライズされた物語を作成し、高度な音声認識を活用して、失読症に関連するような特定の困難を特定し、対処します。このプラットフォームは、若い読者のリテラシーと自信を育むための適応学習プランを提供します。

6.0K
Lingostar

Lingostar

Lingostarは、リアルな会話練習を通じてユーザーが流暢に話せるようになることを目指すAI搭載の言語学習プラットフォームです。発音、文法、語彙について、パーソナライズされたリアルタイムのフィードバックを提供します。ロールプレイングシナリオ、適応型学習パス、インテリジェントな語彙構築などの機能により、旅行、仕事、個人の成長のために、没入型で効果的な言語習得方法を提供します。

3.3K
無料
OpenVoiceOS

OpenVoiceOS

OpenVoiceOSは、カスタムでプライベートかつ安全な音声制御インターフェースを作成するための、コミュニティ主導のオープンソース音声AIプラットフォームです。Raspberry PiやLinuxデスクトップなどの様々なハードウェアで動作し、開発者やDIY愛好家向けに柔軟なプラグインベースのアーキテクチャを提供します。

16.3K
Literably

Literably

Literablyは、K-12(幼稚園から高校まで)の学校向けのAI搭載リテラシー評価ツールです。生徒の音読を聞き、その内容を自動で文字起こしし、流暢さ、正確さ、読解力に関する詳細なデータを教師に提供することで、手作業による評価時間を大幅に削減します。

51.6K
Vocol.ai

Vocol.ai

Vocol.aiは、音声会話を実行可能なインサイトに変換する、オールインワンのAI音声コラボレーションプラットフォームです。高精度の多言語(英語、中国語、日本語)文字起こし、AIによる要約、主要トピック、アクションアイテムを提供します。チーム向けに設計されており、会議、インタビュー、講義のメモ取りや分析といった手作業を自動化することで、ワークフローを合理化し、コラボレーションを強化し、生産性を向上させます。

19.4K
voice_vector

voice_vector

voice_vectorは、高忠実度の音声クローニング、表現力豊かなテキスト読み上げ(TTS)、正確な音声認識を提供する強力なAI音声プラットフォームです。独自の従量課金制とサブスクリプションのハイブリッドモデルにより、コンテンツ制作者、開発者、企業に柔軟で費用対効果の高いソリューションを提供します。無制限のプライベートクローン音声を作成し、堅牢なAPIを介して高度な音声機能をプロジェクトに統合できます。

3.8K
Lingvanex

Lingvanex

Lingvanexは、機械翻訳や音声認識を含む高度なAI搭載言語ソリューションを提供します。企業のデータプライバシーを確保する安全なオンプレミスソフトウェアに特化しています。100以上の言語をサポートし、テキスト、ドキュメント、ウェブサイト向けにカスタマイズ可能で高速な翻訳を提供し、エンタープライズレベルのニーズに応えます。

921.3K
Ello

Ello

Elloは、幼稚園から小学3年生までの子供向けに設計されたAI搭載の読書コンパニオンアプリです。お子様の音読を聞き、リアルタイムで支援を提供し、適応学習技術を用いて、自信に満ちた熱心な読書家に変えるパーソナルな読み聞かせチューターとして機能します。実績のある「読みの科学」の方法論に基づいています。

35.2K
Ask Maya

Ask Maya

Ask Mayaは、英会話を練習しマスターするために設計されたAI搭載の会話パートナーです。リアルタイムの音声ベースの会話に参加し、流暢さ、発音、自信を向上させ、ネイティブスピーカーのように話せるようになります。楽しく、手軽で、プレッシャーのない学習方法です。

3.1K
iFlytek Spark

iFlytek Spark

iFlytek Sparkは、iFlytekが開発した包括的なAIアシスタントおよび大規模言語モデルプラットフォームです。深層推論、マルチモーダル対話、130以上の言語をサポートする言語理解に優れています。このプラットフォームは、対話型AI、AI検索、開発者API、ファインチューニング用のMaaS(Model-as-a-Service)プラットフォームを含むツール群を提供し、個人ユーザーや教育、医療、金融などの様々な業界の企業を支援します。

320.0K
Accent Guesser

Accent Guesser

Accent Guesserは、あなたの声を分析して驚くほどの精度でアクセントを特定するAI搭載ツールです。高度なディープラーニングを使用し、あなたの発話パターンや言語的背景に関する洞察を即座に提供します。言語学習者、テクノロジー愛好家、そして好奇心旺盛な人々が、世界中のアクセントを探求し、コミュニケーションスキルを高めるための、楽しくて魅力的な方法です。ウェブサイトで声を録音するだけで、数秒であなたのアクセントのユニークな特徴を発見できます。

5.4K
FileTranscribe

FileTranscribe

FileTranscribeは、音声ファイルや動画ファイルを数分で正確に文字起こしする無料のAI搭載ツールです。話者分離、自動要約、議事録作成などの高度な機能を提供し、学生、専門家、コンテンツ制作者が簡単に音声をテキストに変換するのに最適です。

3.2K
無料
Najva

Najva

Najvaは、オフラインのデバイス上音声認識とGPT-4やClaude 3のような高度なAIモデルを組み合わせた無料のネイティブmacOSアプリです。あなたの声を即座にインテリジェントなテキストに変換し、ライター、開発者、専門家に比類のないプライバシーと生産性を提供します。コンテキスト認識、スクリーンショット統合、多数のAIプロバイダーのサポートが特徴です。

2.1K
Flow

Flow

Flowは、自然で日常的な練習を通じて言語の流暢さを達成するのを助けるために設計されたAI搭載の言語学習アプリケーションです。AIチューターとのリアルな会話に参加し、パーソナライズされたフィードバックを受け取り、直感的で没入感のある方法で学びましょう。新しい言語を習得するためのあなたの個人的なガイドです。

2.2K
Tandem GPT

Tandem GPT

Tandem GPTは、リアルでインタラクティブな会話を通じて新しい言語の習得を支援するAI搭載の言語パートナーです。既成のシナリオや独自のシナリオを使って、24時間365日AIチューターと会話やテキストの練習ができます。音声メッセージに対応しており、実世界での流暢さと自信を築くための安全で気兼ねない環境を提供します。

4.0K
Buddy.ai

Buddy.ai

Buddy.aiは、3歳から7歳の子供向けに設計されたAI搭載の英語家庭教師アプリです。音声認識とゲーム化されたレッスンを活用し、パーソナライズされた1対1のスピーキング練習を提供します。このアプリは、子供たちが1500以上の英単語やフレーズを学び、発音をマスターし、楽しくインタラクティブな環境で話す自信を育むのに役立ちます。これらすべてが、ライブの家庭教師の数分の一のコストで実現します。

67.5K
Muchtodo

Muchtodo

Muchtodoは、あなたの声をプロジェクト、タスク、メモに変換するAI搭載のタスク管理プラットフォームです。タイピングを最小限に抑えて生産性を高め、アイデアを即座に捉えることができるように設計されています。57言語をサポートし、集中力を高めるためのポモドーロタイマーも搭載しており、シームレスで効率的なワークフローを実現します。

2.1K
Falou

Falou

Falouは、会話スキルを向上させるために設計されたAI搭載の言語学習アプリです。実世界のシナリオでスピーキングを練習し、即座に発音のフィードバックを受け取り、新しい言語を流暢に話す自信をつけましょう。24時間いつでも利用できる個人言語チューターのようです。

7.1K
Botjet

Botjet

Botjetは、企業がインテリジェントなオムニチャネルチャットボットを構築、展開、管理するためのエンドツーエンドの対話型AIプラットフォームです。ウェブサイト、モバイルアプリ、IVRS、ソーシャルメディアでより深い顧客エンゲージメントを実現するために、人間のような対話フローの作成に重点を置いています。このプラットフォームは、ビジュアルフローデザイナー、強力なNLU、柔軟な展開オプション(クラウドまたはオンプレミス)を提供し、タスクの自動化と顧客サポートの強化を実現します。

2.2K
Audiogest

Audiogest

Audiogestは、99以上の言語で音声・動画ファイルを迅速かつ正確に文字起こし・要約するAI搭載ツールです。話者認識、カスタマイズ可能なAIノート、柔軟な従量課金制が特徴です。学生、研究者、専門家に最適で、EU拠点のサーバーでデータプライバシーを確保しつつ、手作業の時間を大幅に削減します。サブスクリプションなしで、高速、手頃、信頼性の高い文字起こしと要約を入手できます。

3.4K
Wavify

Wavify

Wavifyは、開発者向けのオンデバイス音声AIプラットフォームです。音声テキスト変換、ウェイクワード検出、音声意図認識などの機能をあらゆるアプリケーションに統合するための、高性能でプライベートなクロスプラットフォームSDKを提供します。クラウドレベルの精度を確保しつつ、すべてのデータをユーザーのデバイス上でローカルに処理し、プライバシーとオフライン機能を保証します。

2.2K
David AI

David AI

David AIは、高度な音声および対話型AIモデルのトレーニング用に、高品質で研究グレードのオーディオデータセットを提供します。多言語会話、複数話者オーディオ、専門家の対話など、多様で大規模なデータセットを提供し、新しいAI能力を解放するためのカスタムデータセット作成オプションもあります。

23.5K
Sindarin

Sindarin

Sindarinは、開発者向けの低遅延・対話型音声AIを構築するための高速化されたクラウドプラットフォームです。APIとノーコードプラットフォームを提供し、応答性が高く自然な音声のAIペルソナを作成します。業界をリードするターンテーキングとシームレスな割り込み処理により、カスタマーサービス、ウェルネス、ゲームなどのアプリケーションで真の対話型音声体験を実現し、エンタープライズレベルのスケーラビリティと信頼性を提供します。

4.3K
MediScoper

MediScoper

MediScoperは、医療専門家向けのAI支援プラットフォームで、臨床ワークフローを効率化するために設計されています。医師と患者の対話の音声を高精度で文字起こしし、SOAP基準の分析レポートを自動生成、リアルタイムで診断提案を行い、60以上の言語での翻訳をサポートします。これにより、医師は事務作業を削減し、患者ケアにより集中できるようになり、データのセキュリティと機密性も確保されます。

2.1K
Krater.ai

Krater.ai

Krater.aiは、50以上のAIツールを単一のプラットフォームに統合した、オールインワンのAIスーパーアプリです。1つのサブスクリプションで、コンテンツ生成、画像作成、音声処理などのソリューションを提供します。クリエイター、マーケター、起業家向けに設計されており、統一された使いやすいインターフェースで複数の専門アプリケーションを置き換え、時間とコストを節約し、ワークフローを合理化することを目指しています。

171.0K
Languate

Languate

Languateは、会話スキルを向上させるために設計されたAI搭載の言語学習プラットフォームです。リスニング、スピーキング、リーディング、ライティングの積極的な練習を通じて、理論的な知識を実践的な自信に変えるお手伝いをします。発音に関する即時かつ詳細なフィードバックを得て、英語、スペイン語、ドイツ語などの言語の流暢さを追跡し、向上させましょう。

2.6K
AppTek.ai

AppTek.ai

AppTek.aiは、AIと機械学習による言語技術のグローバルリーダーです。自動音声認識(ASR)、ニューラル機械翻訳(NMT)、自然言語処理(NLP)、テキスト読み上げ(TTS)のエンタープライズ向けソリューションを提供し、メディア、コールセンター、政府などの業界に貢献しています。

4.1K
Transkriptor

Transkriptor

Transkriptorは、音声および動画ファイルを100以上の言語で正確な編集可能なテキストに変換するAI搭載の文字起こしサービスです。コンテンツの要約、話者の特定、アクションアイテムの抽出を行うAIアシスタント機能を備えています。会議、インタビュー、講義、コンテンツ作成に最適で、最大99%の精度を誇り、Zoom、Google Meet、Microsoft Teamsなどのプラットフォームと連携します。ウェブアプリ、モバイルアプリ、Chrome拡張機能として利用でき、メモ取りを効率化し、会話から検索可能なナレッジベースを作成します。

1.1M
AssemblyAI

AssemblyAI

AssemblyAIは、開発者フレンドリーな単一のAPIを通じて、高精度の音声テキスト変換と詳細な音声理解のための強力なAIモデルを提供します。これにより、企業はリアルタイムの音声エージェントから詳細な会話インテリジェンスプラットフォームまで、高度な音声駆動アプリケーションを構築でき、話者分離、個人識別情報(PII)の墨消し、要約などの機能を備えています。

592.2K
Langony

Langony

Langonyは、インタラクティブな3Dレッスン、魅力的なストーリーライン、高度な音声認識を使用して、言語学習を楽しく効果的にするAI搭載の言語学習アプリです。すべての年齢層向けに設計されており、ボイスアシスタントや間隔反復などの機能で、記憶力と発音スキルを向上させる没入型の体験を提供します。

2.1K
Speak

Speak

Speakは、流暢なスピーキング能力を習得するために設計されたAI搭載の言語チューターです。リアルな会話と、発音、文法、イントネーションに関する即時のフィードバックを通じて、いつでもどこでも練習できるプレッシャーのない環境を提供します。教科書を超えて実際の会話スキルを身につけ、実世界で通用する言語への自信を築くための最速の方法です。

532.7K
neoformai

neoformai

neoformaiは、アフリカの方言に特化した自動音声認識(ASR)やテキスト読み上げ(TTS)などの高度なAIモデルを提供します。これにより、開発者や企業は包括的なアプリケーションを構築し、言語の壁を乗り越え、アフリカ全土の何百万人もの人々にデジタル体験を届けることができます。

2.9K
Voice To Notes

Voice To Notes

Voice To Notesは、あなたの音声を編集可能で整理されたテキストノートに即座に変換するAI搭載ツールです。70以上の言語をサポートし、タイピングなしでアイデア、議事録、インタビューをキャプチャするのに最適です。最大2時間まで録音し、シームレスにノートを編集できます。

2.1K
yourteacher.ai

yourteacher.ai

yourteacher.aiは、有名なYouTubeの多言語話者をモデルにしたAIチューターと無制限に外国語会話の練習ができるサービスです。中級学習者が24時間365日、評価を気にすることなく、パーソナライズされた会話を通じて流暢さと自信を身につけるために設計されています。このプラットフォームは、ウェブ、iOS、Androidでリアルタイムの文字起こし、即時修正、進捗追跡機能を提供します。

54.0K
Corti

Corti

Cortiは、複雑な医療会話を理解するために設計された基盤モデルとAPIを提供する、ヘルスケアに特化したAIプラットフォームです。アンビエントAIと高度な音声認識を通じて、医療提供者のワークフローを合理化し、文書作成を自動化し、患者ケアを向上させることを支援し、データプライバシーとソブリンクラウド展開を重視しています。

35.8K
ELSA Speak

ELSA Speak

ELSA Speakは、AIを搭載した英語学習アプリで、非ネイティブスピーカーの発音と流暢さの向上を支援するために設計されています。高度な音声認識技術を使用し、発音、イントネーション、リズムに関する即時の詳細なフィードバックを提供します。このアプリは、パーソナライズされた学習パス、数千のレッスン、実生活の会話練習を提供し、ユーザーがより自信を持って明確に英語を話せるよう支援します。

1.1M
SoundHound AI

SoundHound AI

SoundHound AIは、先進的な対話型AIエージェントの構築を可能にする、企業向けの主要な独立系音声AIプラットフォームです。数十年にわたる専門知識を活用し、自動車、レストラン、カスタマーサービスなどの業界向けに、高精度、データ主権、優れたユーザー体験に焦点を当てたカスタムソリューションを提供します。

550.0K
Defined.ai

Defined.ai

Defined.aiは、高品質なAIトレーニングデータのための主要なマーケットプレイスおよびプラットフォームです。コンピュータビジョン、NLP、音声認識向けの既製データセットとカスタムデータ収集・アノテーションサービスを提供します。グローバルなクラウドソーシングと堅牢なプラットフォームを活用し、企業が正確で倫理的なAIモデルを迅速に開発するのを支援します。

73.6K
無料
voicetotext.org

voicetotext.org

voicetotext.orgは、リアルタイムの音声テキスト変換とテキスト音声変換のための無料のAI搭載オンラインツールです。30以上の言語をサポートし、ユーザーは声で入力し、句読点を追加し、テキストをエクスポートできます。このサービスは、すべてのデータをブラウザでローカルに処理することでプライバシーを優先し、サインアップやデータ保存は不要です。また、テキストを音声に変換する音声ジェネレーターも含まれています。

3.5K