Stability AI Audioとは

Stability AI Audio(Stable Audio 2.5)は、テキストプロンプトから最大3分・44.1kHzステレオの音源を生成するテキスト・トゥ・ミュージックモデルだ。広告動画のBGM、ポッドキャストのジングル、ゲーム内SE、ブランドサウンドの設計まで、これまで外注していた音源制作を内製化したいマーケティング・コンテンツ制作チーム向けに設計されている。

主要機能

  • テキストからフル楽曲生成: 「lo-fi hip-hop, 90 BPM, rainy night」のような自然言語プロンプトを入れるだけで、最大3分のコヒーレントな楽曲構造を持つ音源が数十秒で出力される。従来は1曲あたり数時間から数日かかっていたBGM制作が大幅に短縮される。
  • Audio-to-Audio変換: 既存の音声ファイルをアップロードし、スタイル変換や音色置換に使える。デモ音源をプロ品質トラックに仕上げる工程を圧縮できる。
  • ブランドサウンド生成(2.5): 企業のブランドガイドラインに沿った独自サウンドロゴやジングルを、一貫したトーンで量産できる。
  • API提供: Stability AI Developer Platform経由で自社サービスやワークフローに組み込める。

編集部の検証メモ

公開されている料金プランと機能仕様を比較すると、無料枠は最大20秒、Pro課金で最大90秒〜3分の楽曲生成に対応する。競合のSunoやUdioが「歌モノ」に強いのに対し、Stable Audioは BGM・SE・インストゥルメンタルのコマーシャル用途 に軸足を置いている点が差別化ポイントだ。さらにモデルがオープンウェイト寄りでAPI連携の自由度が高く、自社プロダクトへの組み込み容易性は同カテゴリで頭ひとつ抜けている。BGM 1曲をストック音源サービスで購入すると 3,000〜10,000円 程度かかるが、Stable AudioのPro月額で50曲以上を生成できれば、月数万円規模のロイヤリティ削減が見込める計算になる。

想定ユーザー

動画広告、SaaSデモ、ポッドキャストなどで BGMやSEを大量に内製化したい マーケティング担当やクリエイティブチームに向いている。一方、ボーカル入り楽曲やヒットチャート級の歌モノを作りたい用途には、SunoやUdioなど歌唱特化モデルのほうが適している。