AI PICKS
AI用語辞典音声・音楽

音声LLM (Speech LLM)

読み: おんせいえるえるえむ

最終更新: 2026-06-30・AI PICKS編集部

定義

音声LLMとは、テキスト変換を介さずに音声を直接理解・生成できる大規模言語モデルのこと。感情や声のトーン・リズムも含めてエンドツーエンドで処理する。

音声LLM (Speech LLM)とは — 詳しく解説

音声LLM(Speech LLM)は、従来のASR(音声認識)→テキスト処理→TTS(音声合成)という3段パイプラインと異なり、音声をネイティブな入出力として扱うモデルアーキテクチャ。GPT-4oのAudio mode、Gemini 2.0 Flashのリアルタイム音声、Hume AIのEVIなどが代表例。 2026年の実運用で最大の落とし穴は日本語精度の格差。英語圏ベースのモデルは方言・ため口・感情抑揚の認識が弱く、コールセンター用途では誤認識率10〜20%のケースも現場で報告されている。相場感はAPI換算で音声1分あたり$0.01〜$0.06程度だが、リアルタイム応答ではWebSocket常時接続のインフラコストが別途かかる点に注意。 AI PICKSの評価では、「リアルタイム対話型(レイテンシ200ms以下必須)」と「非同期処理型」を用途で明確に分けることを推奨。電話自動応答・音声UIは前者、文字起こし・要約・議事録生成は後者で十分なため、コストを大幅に抑えられる。

音声LLM (Speech LLM)の使用例

  • 電話受付ボットに音声LLMを導入し、オペレーター対応コストを60%削減した事例
  • Podcast収録後、音声LLMで文字起こし+要約+SNS投稿文を一括生成するワークフロー

音声LLM (Speech LLM)に関連するAIツール

関連用語

音声・音楽」の他の用語

AI用語辞典をすべて見てみませんか

12カテゴリ・352語以上を体系的に整理しています

辞典トップへ