SSML (音声合成マークアップ言語)
読み: えすえすえむえる(おんせいごうせいまークアップげんご)
最終更新: 2026-06-27・AI PICKS編集部
定義
SSMLとはテキスト読み上げ(TTS)エンジンに対して発音・速度・ポーズ・抑揚などを細かく制御するためのXMLベースのマークアップ言語のこと。
SSML (音声合成マークアップ言語)とは — 詳しく解説
SSMLはW3Cが標準化した音声合成制御のための仕様で、Google Cloud TTS・Amazon Polly・Azure Cognitive Speech・OpenAIのTTS APIなど主要プラットフォームがサポートする業界標準。`<break>`タグで無音ポーズを挿入、`<prosody>`で速度・音量・ピッチを調整、`<say-as>`で数字・日付・電話番号の読み方を指定できる。 2026年現在の実運用での落とし穴として、プラットフォーム間の方言差が深刻。Google独自タグがAmazon Pollyで無視される、Azureは`<mstts:express-as>`など独自拡張が必要、といった互換性問題が現場で頻発する。OpenAIのTTS APIはSSML非対応で生テキストのみ受け付けるため、乗り換え時に制御ロジックの全書き直しが必要になるケースも多い。 コスト面では、SSMLタグ自体は文字数カウントに含まれないプラットフォームが多いが、Google Cloudでは一部タグが課金対象文字数に加算される仕様があり、相場感として月100万文字規模で数千円の誤差が生じる。AI PICKSの実運用観点では、まずOpenAI TTS(シンプル・高品質)で要件を満たせるか確認し、細かい発話制御が必要な場合のみSSML対応のGoogle/Azure/Pollyを選ぶ判断が費用対効果上おすすめ。
SSML (音声合成マークアップ言語)の使用例
- Pollyで「2026年、売上は前年比<say-as interpret-as='cardinal'>150</say-as>パーセント増」と読ませ、数字の誤読を防ぐSSMLタグの使い方。
- ポッドキャスト自動生成時に`<break time='1s'/>`を見出し前後に挿入し、自然な間を作るプロンプト設計の事例。
SSML (音声合成マークアップ言語)に関連するAIツール
関連用語
「音声・音楽」の他の用語
AI 音楽生成サービス。 歌詞 + ジャンル指定で 完成楽曲を 1 分で生成。
OpenAI のオープンソース音声認識モデル。 99 言語対応、 日本語精度も高い。
AI 音声生成のトップサービス。 自分の声をクローンして 多言語ナレーションに使える。
TTS(音声合成)とは、テキストデータを人間らしい音声に変換するAI技術のこと。ナレーション・コールセンター・音声UIなど幅広い用途で使われ、2026年現在は人間と聞き分けにくい品質が標準となっている。
ASR(自動音声認識)とは、人間の音声をリアルタイムまたは録音データからテキストへ自動変換する技術のこと。Whisperなどの深層学習モデルの普及により、文字起こし・音声コマンド・翻訳など幅広い用途で活用される。
ボイスクローンとは、数秒〜数分の音声サンプルから特定人物の声質・話し方・抑揚を高精度に再現するAI音声合成技術のこと。
AI用語辞典をすべて見てみませんか
12カテゴリ・202語以上を体系的に整理しています
辞典トップへ