TTS (音声合成)
読み: てぃーてぃーえす(おんせいごうせい)
最終更新: 2026-06-25・AI PICKS編集部
定義
TTS(音声合成)とは、テキストデータを人間らしい音声に変換するAI技術のこと。ナレーション・コールセンター・音声UIなど幅広い用途で使われ、2026年現在は人間と聞き分けにくい品質が標準となっている。
TTS (音声合成)とは — 詳しく解説
TTS(Text-to-Speech)は、入力テキストを人間らしい音声に変換するAI技術の総称。かつてはロボット的な棒読みが主流だったが、Transformerベースのニューラルネットにより感情・抑揚制御が可能な高品質音声が標準化されつつある。 2026年の実運用では、ElevenLabsやOpenAI TTS、Google Cloud TTS、AWS Pollyなどが代表的な選択肢。相場感は1文字あたり0.0001〜0.002ドル前後で、月間利用量と要求品質によって大きく差がある。 現場での落とし穴として最も多いのが「日本語の発音ブレ」と「固有名詞の誤読」。商品名・人名・業界用語はSSMLタグで読み方を明示補正するのが定石で、本番投入前の校正コストを必ず見込んでおきたい。 AI PICKSで確認できる事例では、コールセンターIVR自動応答やポッドキャスト自動生成での活用が急増。一方、声優ボイスのクローニングは各国の法規制が整備途中のため、商用利用前に利用規約の確認が必須。コスト削減を狙う現場では、定型短文はオンデバイスTTS(無料〜低コスト)、顧客接点の重要シーンのみクラウドTTSという使い分けが広がっている。
TTS (音声合成)の使用例
- SynthflowでAI音声エージェントを構築する際、TTSエンジンにElevenLabsを設定してナチュラルな日本語応答を実現。固有名詞はSSMLで読み仮名を補正。
- コールセンターIVR自動化でTTS採用。月間500万文字でコスト約500ドル。感情ラベル付きSSMLで「お待たせして申し訳ございません」のトーンを調整。
TTS (音声合成)に関連するAIツール
関連用語
「音声・音楽」の他の用語
AI 音楽生成サービス。 歌詞 + ジャンル指定で 完成楽曲を 1 分で生成。
OpenAI のオープンソース音声認識モデル。 99 言語対応、 日本語精度も高い。
AI 音声生成のトップサービス。 自分の声をクローンして 多言語ナレーションに使える。
ASR(自動音声認識)とは、人間の音声をリアルタイムまたは録音データからテキストへ自動変換する技術のこと。Whisperなどの深層学習モデルの普及により、文字起こし・音声コマンド・翻訳など幅広い用途で活用される。
ボイスクローンとは、数秒〜数分の音声サンプルから特定人物の声質・話し方・抑揚を高精度に再現するAI音声合成技術のこと。
リアルタイム音声とは、AIが音声入力をほぼ遅延ゼロで認識・生成し、人間同士の会話に近い応答速度を実現する技術のこと。
AI用語辞典をすべて見てみませんか
12カテゴリ・102語以上を体系的に整理しています
辞典トップへ