リード

Coqui TTSは、多言語対応の音声合成と音声クローニングをローカル環境で完結できるオープンソースのテキスト読み上げフレームワークだ。短い音声サンプルから話者の声質を再現するXTTSモデルを中心に、日本語を含む十数言語の事前学習済みモデルが利用できる。クラウド送信が不要なため機密性の高い社内ナレーション、eラーニング教材、音声アシスタント開発を内製したい開発チームに向く。

主要機能

第一にXTTSによる音声クローニングで、6秒程度のサンプル音声から話者の声を抽出し別言語で読み上げ可能。ナレーター手配・収録に1本あたり3〜5万円かけていた多言語動画制作を、編集ベースでほぼ即時生成に置き換えられる。第二に多言語TTSモデル群で、日英中西仏など17言語に対応し、教材1本あたり数十分の収録作業を秒単位の合成処理に短縮できる。第三にPython APIとCLIによる完全プログラマブル運用で、Jenkins/GitHub Actionsへ組み込み大量ナレーションを夜間バッチ生成可能。第四にMPL-2.0ライセンス下でのオンプレ運用が可能で、API利用料の継続コストが発生しない。

編集部の検証メモ

公開ドキュメントとライセンス条件を比較検討した結果、月20万円規模で商用TTS APIを利用している現場であれば、Coqui TTSのオンプレ運用に切り替えることで年間200万円超のAPI費用を削減できる試算となる。商業会社Coqui.aiは2024年1月に事業終了したが、Idiap Research Instituteがフォークを継続しておりGitHub上で開発が続いている点は競合ElevenLabsやAzure TTSとの大きな差別化ポイントだ。一方でGPU推論を前提とするモデルが多く、RTX 3090相当のVRAM 24GBクラスを推奨するため、CPU運用前提の現場では初期投資としてGPUサーバー50〜80万円を見込む必要がある。

想定ユーザー

音声データの外部送信を避けたい医療・金融・法務系の開発チーム、多言語eラーニング教材を内製する制作会社、音声アシスタントを組み込むIoT/組み込み開発エンジニアに向く。一方でノーコードで完結させたい非エンジニアや、商用サポート契約を前提とする大企業の調達要件には不向きで、その場合はElevenLabsやAzure Speechの併用検討が現実的だ。