AI PICKS
AI用語辞典音声・音楽

SSML (音声合成マークアップ言語)

読み: えすえすえむえる(おんせいごうせいまークアップげんご)

最終更新: 2026-06-27・AI PICKS編集部

定義

SSMLとはテキスト読み上げ(TTS)エンジンに対して発音・速度・ポーズ・抑揚などを細かく制御するためのXMLベースのマークアップ言語のこと。

SSML (音声合成マークアップ言語)とは — 詳しく解説

SSMLはW3Cが標準化した音声合成制御のための仕様で、Google Cloud TTS・Amazon Polly・Azure Cognitive Speech・OpenAIのTTS APIなど主要プラットフォームがサポートする業界標準。`<break>`タグで無音ポーズを挿入、`<prosody>`で速度・音量・ピッチを調整、`<say-as>`で数字・日付・電話番号の読み方を指定できる。 2026年現在の実運用での落とし穴として、プラットフォーム間の方言差が深刻。Google独自タグがAmazon Pollyで無視される、Azureは`<mstts:express-as>`など独自拡張が必要、といった互換性問題が現場で頻発する。OpenAIのTTS APIはSSML非対応で生テキストのみ受け付けるため、乗り換え時に制御ロジックの全書き直しが必要になるケースも多い。 コスト面では、SSMLタグ自体は文字数カウントに含まれないプラットフォームが多いが、Google Cloudでは一部タグが課金対象文字数に加算される仕様があり、相場感として月100万文字規模で数千円の誤差が生じる。AI PICKSの実運用観点では、まずOpenAI TTS(シンプル・高品質)で要件を満たせるか確認し、細かい発話制御が必要な場合のみSSML対応のGoogle/Azure/Pollyを選ぶ判断が費用対効果上おすすめ。

SSML (音声合成マークアップ言語)の使用例

  • Pollyで「2026年、売上は前年比<say-as interpret-as='cardinal'>150</say-as>パーセント増」と読ませ、数字の誤読を防ぐSSMLタグの使い方。
  • ポッドキャスト自動生成時に`<break time='1s'/>`を見出し前後に挿入し、自然な間を作るプロンプト設計の事例。

SSML (音声合成マークアップ言語)に関連するAIツール

関連用語

音声・音楽」の他の用語

AI用語辞典をすべて見てみませんか

12カテゴリ・202語以上を体系的に整理しています

辞典トップへ