音声LLM (Speech LLM)
読み: おんせいえるえるえむ
最終更新: 2026-06-30・AI PICKS編集部
定義
音声LLMとは、テキスト変換を介さずに音声を直接理解・生成できる大規模言語モデルのこと。感情や声のトーン・リズムも含めてエンドツーエンドで処理する。
音声LLM (Speech LLM)とは — 詳しく解説
音声LLM(Speech LLM)は、従来のASR(音声認識)→テキスト処理→TTS(音声合成)という3段パイプラインと異なり、音声をネイティブな入出力として扱うモデルアーキテクチャ。GPT-4oのAudio mode、Gemini 2.0 Flashのリアルタイム音声、Hume AIのEVIなどが代表例。 2026年の実運用で最大の落とし穴は日本語精度の格差。英語圏ベースのモデルは方言・ため口・感情抑揚の認識が弱く、コールセンター用途では誤認識率10〜20%のケースも現場で報告されている。相場感はAPI換算で音声1分あたり$0.01〜$0.06程度だが、リアルタイム応答ではWebSocket常時接続のインフラコストが別途かかる点に注意。 AI PICKSの評価では、「リアルタイム対話型(レイテンシ200ms以下必須)」と「非同期処理型」を用途で明確に分けることを推奨。電話自動応答・音声UIは前者、文字起こし・要約・議事録生成は後者で十分なため、コストを大幅に抑えられる。
音声LLM (Speech LLM)の使用例
- 電話受付ボットに音声LLMを導入し、オペレーター対応コストを60%削減した事例
- Podcast収録後、音声LLMで文字起こし+要約+SNS投稿文を一括生成するワークフロー
音声LLM (Speech LLM)に関連するAIツール
関連用語
「音声・音楽」の他の用語
AI 音楽生成サービス。 歌詞 + ジャンル指定で 完成楽曲を 1 分で生成。
OpenAI のオープンソース音声認識モデル。 99 言語対応、 日本語精度も高い。
AI 音声生成のトップサービス。 自分の声をクローンして 多言語ナレーションに使える。
TTS(音声合成)とは、テキストデータを人間らしい音声に変換するAI技術のこと。ナレーション・コールセンター・音声UIなど幅広い用途で使われ、2026年現在は人間と聞き分けにくい品質が標準となっている。
ASR(自動音声認識)とは、人間の音声をリアルタイムまたは録音データからテキストへ自動変換する技術のこと。Whisperなどの深層学習モデルの普及により、文字起こし・音声コマンド・翻訳など幅広い用途で活用される。
ボイスクローンとは、数秒〜数分の音声サンプルから特定人物の声質・話し方・抑揚を高精度に再現するAI音声合成技術のこと。
AI用語辞典をすべて見てみませんか
12カテゴリ・352語以上を体系的に整理しています
辞典トップへ