1. リード

Resemble AIは、わずか10秒程度の音声サンプルから本人そっくりの合成音声を生成できるAIボイスクローニングプラットフォームだ。Text-to-Speech、会話型Voice Agent、AI Voice Changer、ディープフェイク検出までを一つのスタックに統合し、148言語に対応。ナレーション制作、ゲームキャラクターのボイス、IVR・コールセンターの自動応答、動画ローカライズなど、音声を「資産」として量産・運用したい制作会社や事業会社の音声DX基盤として設計されている。

2. 主要機能

1. 10秒サンプルからの高速ボイスクローン:従来スタジオ収録で半日かかったキャラクターボイスの素材確保が、サンプル収録〜クローン生成まで数分単位に短縮。差し替えやセリフ追加もテキスト編集だけで完結する。2. リアルタイムVoice Agents:低レイテンシのAPIで会話型エージェントを構築でき、IVRの音声収録(従来1時間あたり数万円のナレーター費)を秒単価0.001ドルに置き換え可能。3. AI Voice Changer / 多言語ダビング:148言語に同一話者の声色のまま展開でき、海外向け動画のローカライズ収録を1言語あたり数十万円規模からAPI従量課金へ圧縮。4. ディープフェイク検出(Detect):生成側と検出側を同一ベンダーで揃えられ、ガバナンス要件のある企業導入に強い。

3. 編集部の検証メモ

公開料金プランと機能要件を突き合わせた結果、月額30ドルから始められ、TTS 1秒あたり0.0005ドル、Voice Agents 0.001ドル、Voice Changer 0.0005ドルという秒単価ベースの課金は、ナレーター発注(30分素材で5〜10万円相当)と比較して概ね90%以上のコスト削減レンジに入る。ElevenLabsが個人クリエイター向けのリッチな表現力で先行する一方、Resembleはエンタープライズ向けのAPI整備・カスタムモデル・Detect併設という「運用と統制」側に差別化軸を置いている。週5本の動画ナレーションを内製化した場合、外注比で月20〜40万円のコスト削減と、収録〜納品リードタイム2日→数時間化が試算レンジ。

4. 想定ユーザー

IVR・カスタマーサポートの音声を内製したいSaaS事業者、複数言語にナレーションを量産したい動画/eラーニング制作会社、ゲームスタジオのプロトタイピングに向く。一方、1〜2本のYouTube用ナレーションだけが目的の個人クリエイターには、UIが英語中心で月額固定費が重いため、より日本語UIに寄った軽量TTSの方が費用対効果は出やすい。