AI PICKS
AI用語辞典音声・音楽

リアルタイム音声翻訳 (Speech-to-Speech Translation)

読み: りあるたいむおんせいほんやく

最終更新: 2026-06-28・AI PICKS編集部

定義

リアルタイム音声翻訳とは、話者の音声をほぼ遅延なく別の言語の音声に変換するAI技術のこと。同時通訳を自動化し、国際商談やインバウンド対応での言語障壁を即座に解消する。

リアルタイム音声翻訳 (Speech-to-Speech Translation)とは — 詳しく解説

Speech-to-Speech Translation(S2ST)とは、入力音声をテキストに変換せず、音声特徴量から直接ターゲット言語の音声を生成するAI技術。従来のASR→機械翻訳→TTSの三段構成と異なり、感情・声質・イントネーションを保持したまま翻訳できる点が特徴だ。2026年の実運用では、MetaのSeamlessM4Tをはじめ100言語超を処理できるモデルが実用段階に入り、商用APIも整いつつある。現場での主な落とし穴は三つ。遅延はエンドツーエンドモデルでも500ms〜1.5秒が現実的で、対面商談での「間のズレ」が想定外のストレスになる。コストの相場感はAPI利用で1時間あたり$3〜$15前後、月100時間超なら自前ホスティングとのコスト比較が必須。言語品質では日本語の専門用語(医療・法律)や方言での誤訳率が高く、ファインチューニングなしの本番投入はリスクが大きい。AI PICKSの実例調査では、インバウンド対応・国際商談・動画ローカライズの3用途での導入が最も多い。

リアルタイム音声翻訳 (Speech-to-Speech Translation)の使用例

  • 国際カンファレンスで登壇者の英語を即座に日本語音声へ変換。参加者はイヤホンで母国語の翻訳音声をリアルタイムで聴ける。
  • 訪日外国人向け観光案内で、ガイドの日本語説明をS2ST APIが英語・中国語・韓国語に同時翻訳して音声出力する観光アプリ。

リアルタイム音声翻訳 (Speech-to-Speech Translation)に関連するAIツール

関連用語

音声・音楽」の他の用語

AI用語辞典をすべて見てみませんか

12カテゴリ・252語以上を体系的に整理しています

辞典トップへ