AI PICKS
AI用語辞典音声・音楽

音声変換 (Voice Conversion)

読み: おんせいへんかん

最終更新: 2026-06-27・AI PICKS編集部

定義

音声変換とは、ある人物の声質・音色を別の人物や任意のスタイルに変換するAI技術のこと。話者の言語内容を保持しながら声のキャラクターだけを変える。

音声変換 (Voice Conversion)とは — 詳しく解説

音声変換(Voice Conversion)とは、発話者のピッチ・音色・声質などの特徴を別のターゲット話者のスタイルに変換するAI技術。テキスト読み上げ(TTS)とは異なり、元の音声の抑揚・感情・タイミングを保ったまま「声だけを差し替える」点が特徴。 2026年時点の実運用では、RVC(Retrieval-based Voice Conversion)やSo-VITS-SCVSなどのオープンソースモデルが普及し、数十秒のサンプル音声から高精度な変換が可能になっている。現場での相場感として、クラウドAPIを使う場合は1分あたり数円〜数十円、セルフホストなら初期GPU代が主コスト。 AI PICKSで多く見られる活用事例はポッドキャスト・ナレーション制作で、自分の声で収録した原稿を著名ナレーター風に変換するケースや、多言語ローカライズ時に声優コストを削減する用途がある。落とし穴として、学習データが少ないと「音質劣化」「ロボット感」が残りやすく、背景ノイズが多い音源では変換精度が大幅に落ちる。また変換された音声の権利帰属は法的グレーゾーンが残っており、商用利用前に権利確認が必須。

音声変換 (Voice Conversion)の使用例

  • ポッドキャスト収録時に自分の声をプロナレーター風に変換し、編集コストを削減する。
  • 動画の日本語吹き替えを元話者の声質に近いまま英語音声に差し替えてローカライズする。

音声変換 (Voice Conversion)に関連するAIツール

関連用語

音声・音楽」の他の用語

AI用語辞典をすべて見てみませんか

12カテゴリ・202語以上を体系的に整理しています

辞典トップへ