リアルタイム音声翻訳 (Speech-to-Speech Translation)
読み: りあるたいむおんせいほんやく
最終更新: 2026-06-28・AI PICKS編集部
定義
リアルタイム音声翻訳とは、話者の音声をほぼ遅延なく別の言語の音声に変換するAI技術のこと。同時通訳を自動化し、国際商談やインバウンド対応での言語障壁を即座に解消する。
リアルタイム音声翻訳 (Speech-to-Speech Translation)とは — 詳しく解説
Speech-to-Speech Translation(S2ST)とは、入力音声をテキストに変換せず、音声特徴量から直接ターゲット言語の音声を生成するAI技術。従来のASR→機械翻訳→TTSの三段構成と異なり、感情・声質・イントネーションを保持したまま翻訳できる点が特徴だ。2026年の実運用では、MetaのSeamlessM4Tをはじめ100言語超を処理できるモデルが実用段階に入り、商用APIも整いつつある。現場での主な落とし穴は三つ。遅延はエンドツーエンドモデルでも500ms〜1.5秒が現実的で、対面商談での「間のズレ」が想定外のストレスになる。コストの相場感はAPI利用で1時間あたり$3〜$15前後、月100時間超なら自前ホスティングとのコスト比較が必須。言語品質では日本語の専門用語(医療・法律)や方言での誤訳率が高く、ファインチューニングなしの本番投入はリスクが大きい。AI PICKSの実例調査では、インバウンド対応・国際商談・動画ローカライズの3用途での導入が最も多い。
リアルタイム音声翻訳 (Speech-to-Speech Translation)の使用例
- 国際カンファレンスで登壇者の英語を即座に日本語音声へ変換。参加者はイヤホンで母国語の翻訳音声をリアルタイムで聴ける。
- 訪日外国人向け観光案内で、ガイドの日本語説明をS2ST APIが英語・中国語・韓国語に同時翻訳して音声出力する観光アプリ。
リアルタイム音声翻訳 (Speech-to-Speech Translation)に関連するAIツール
関連用語
「音声・音楽」の他の用語
AI 音楽生成サービス。 歌詞 + ジャンル指定で 完成楽曲を 1 分で生成。
OpenAI のオープンソース音声認識モデル。 99 言語対応、 日本語精度も高い。
AI 音声生成のトップサービス。 自分の声をクローンして 多言語ナレーションに使える。
TTS(音声合成)とは、テキストデータを人間らしい音声に変換するAI技術のこと。ナレーション・コールセンター・音声UIなど幅広い用途で使われ、2026年現在は人間と聞き分けにくい品質が標準となっている。
ASR(自動音声認識)とは、人間の音声をリアルタイムまたは録音データからテキストへ自動変換する技術のこと。Whisperなどの深層学習モデルの普及により、文字起こし・音声コマンド・翻訳など幅広い用途で活用される。
ボイスクローンとは、数秒〜数分の音声サンプルから特定人物の声質・話し方・抑揚を高精度に再現するAI音声合成技術のこと。
AI用語辞典をすべて見てみませんか
12カテゴリ・252語以上を体系的に整理しています
辞典トップへ