AI PICKS
AI用語辞典音声・音楽

歌声合成 (Singing Voice Synthesis)

読み: うたごえごうせい

最終更新: 2026-06-28・AI PICKS編集部

定義

歌声合成とは、楽譜・歌詞・音程情報をもとにAIが人間の歌声を自動生成する技術のこと。VOCALOIDに代表される波形接続方式から、深層学習を用いたエンドツーエンド生成へと進化し、2020年代に急速に普及した。

歌声合成 (Singing Voice Synthesis)とは — 詳しく解説

歌声合成(Singing Voice Synthesis、SVS)は、楽譜情報・歌詞テキスト・発音タイミングをAIモデルに入力することで、人間らしい歌声音声を自動生成する技術分野。従来のVOCALOIDはルールベースの波形接続が主流だったが、2020年以降はDiffusionモデルやTransformerを用いたエンドツーエンド学習が台頭し、SoftVC VITS・DiffSingerなどのオープンソース実装も普及している。 2026年時点の実運用での最大の落とし穴は商用ライセンスの不透明さだ。学習データに含まれる歌手の権利処理が曖昧なモデルも多く、コンテンツプラットフォームへの投稿・配信前には必ずライセンス確認が必要になる。現場でのコスト感はクラウドAPIで1曲あたり数十〜数百円程度だが、自社GPU環境の構築には別途10〜30万円のコストが発生する。 選び方の相場感として、日本語対応・音質・ライセンスの3軸が重要。国内ではVOICEVOXの歌声合成機能が無料で商用利用可能な点で人気が高い。海外ではDiffSingerベースのモデルが主流。AI PICKSでは用途別の比較情報を随時更新しているため、ツール選定の際はカテゴリページも参照されたい。

歌声合成 (Singing Voice Synthesis)の使用例

  • VOICEVOXの歌声合成機能でオリジナル楽曲デモを作成。歌詞とMIDIを入力するだけで1分以内に音声が生成される。
  • DiffSingerモデルをファインチューニングし、本人許諾済み録音100曲で特定歌手の声質に近い歌声合成を実現した事例。

歌声合成 (Singing Voice Synthesis)に関連するAIツール

関連用語

音声・音楽」の他の用語

AI用語辞典をすべて見てみませんか

12カテゴリ・252語以上を体系的に整理しています

辞典トップへ