AI PICKS
AI用語辞典音声・音楽

ASR (音声認識)

読み: えーえすあーる(おんせいにんしき)

最終更新: 2026-06-25・AI PICKS編集部

定義

ASR(自動音声認識)とは、人間の音声をリアルタイムまたは録音データからテキストへ自動変換する技術のこと。Whisperなどの深層学習モデルの普及により、文字起こし・音声コマンド・翻訳など幅広い用途で活用される。

ASR (音声認識)とは — 詳しく解説

ASR(Automatic Speech Recognition)は、音声波形を解析してテキストに変換する技術であり、Transformerアーキテクチャの普及以降、精度が飛躍的に向上した。2026年時点の実運用では、OpenAI Whisper large-v3・Google STT v2・Azure Custom Speech・AWS Transcribeの4強が主流。 相場感として、クラウドAPIは音声1時間あたり約0.4〜0.9ドル前後。Whisperをセルフホストすればコストをほぼゼロにできるが、GPU維持費・日本語固有名詞の誤認識・複数話者の混在への弱さが現場での落とし穴になりやすい。医療・法務・金融ドメインでは専門用語辞書の整備またはファインチューニングが実質必須となる。 選び方の指針は用途で分かれる。①議事録・字幕など非リアルタイム用途ならWhisper large-v3のバッチ処理がコスパ最良、②コールセンターなどリアルタイム要件があるならAzure STT StreamingかGoogle STT Streaming、③多言語対応が必要なグローバル案件ならWhisper multilingualかDeepgramが有力候補。AI PICKSで紹介する音声AIツールの大半はこのASRレイヤーを基盤に構築されており、用途に合ったASR選定がサービス品質と運用コストを直接左右する。

ASR (音声認識)の使用例

  • 会議録音をWhisper large-v3に投入し議事録を自動生成。日本語精度は約95%超だが固有名詞は後処理の辞書補正が必須。
  • コールセンターでAzure STT Streamingにより顧客音声をリアルタイム変換し、感情分析AIへ連携する構成が2026年の現場定番。

ASR (音声認識)に関連するAIツール

関連用語

音声・音楽」の他の用語

AI用語辞典をすべて見てみませんか

12カテゴリ・102語以上を体系的に整理しています

辞典トップへ