ASR (音声認識)
読み: えーえすあーる(おんせいにんしき)
最終更新: 2026-06-25・AI PICKS編集部
定義
ASR(自動音声認識)とは、人間の音声をリアルタイムまたは録音データからテキストへ自動変換する技術のこと。Whisperなどの深層学習モデルの普及により、文字起こし・音声コマンド・翻訳など幅広い用途で活用される。
ASR (音声認識)とは — 詳しく解説
ASR(Automatic Speech Recognition)は、音声波形を解析してテキストに変換する技術であり、Transformerアーキテクチャの普及以降、精度が飛躍的に向上した。2026年時点の実運用では、OpenAI Whisper large-v3・Google STT v2・Azure Custom Speech・AWS Transcribeの4強が主流。 相場感として、クラウドAPIは音声1時間あたり約0.4〜0.9ドル前後。Whisperをセルフホストすればコストをほぼゼロにできるが、GPU維持費・日本語固有名詞の誤認識・複数話者の混在への弱さが現場での落とし穴になりやすい。医療・法務・金融ドメインでは専門用語辞書の整備またはファインチューニングが実質必須となる。 選び方の指針は用途で分かれる。①議事録・字幕など非リアルタイム用途ならWhisper large-v3のバッチ処理がコスパ最良、②コールセンターなどリアルタイム要件があるならAzure STT StreamingかGoogle STT Streaming、③多言語対応が必要なグローバル案件ならWhisper multilingualかDeepgramが有力候補。AI PICKSで紹介する音声AIツールの大半はこのASRレイヤーを基盤に構築されており、用途に合ったASR選定がサービス品質と運用コストを直接左右する。
ASR (音声認識)の使用例
- 会議録音をWhisper large-v3に投入し議事録を自動生成。日本語精度は約95%超だが固有名詞は後処理の辞書補正が必須。
- コールセンターでAzure STT Streamingにより顧客音声をリアルタイム変換し、感情分析AIへ連携する構成が2026年の現場定番。
ASR (音声認識)に関連するAIツール
関連用語
「音声・音楽」の他の用語
AI 音楽生成サービス。 歌詞 + ジャンル指定で 完成楽曲を 1 分で生成。
OpenAI のオープンソース音声認識モデル。 99 言語対応、 日本語精度も高い。
AI 音声生成のトップサービス。 自分の声をクローンして 多言語ナレーションに使える。
TTS(音声合成)とは、テキストデータを人間らしい音声に変換するAI技術のこと。ナレーション・コールセンター・音声UIなど幅広い用途で使われ、2026年現在は人間と聞き分けにくい品質が標準となっている。
ボイスクローンとは、数秒〜数分の音声サンプルから特定人物の声質・話し方・抑揚を高精度に再現するAI音声合成技術のこと。
リアルタイム音声とは、AIが音声入力をほぼ遅延ゼロで認識・生成し、人間同士の会話に近い応答速度を実現する技術のこと。
AI用語辞典をすべて見てみませんか
12カテゴリ・102語以上を体系的に整理しています
辞典トップへ