音楽生成 (Music Generation)
読み: おんがくせいせい
最終更新: 2026-06-26・AI PICKS編集部
定義
音楽生成とはAIがテキストプロンプトやジャンル指定などの入力をもとに、メロディ・コード・リズムを含む楽曲を自動で生成する技術のこと。
音楽生成 (Music Generation)とは — 詳しく解説
音楽生成(Music Generation)は、深層学習モデルがテキスト・ムード・楽器指定などの条件から楽曲を合成する生成AIの一分野。Transformer系とDiffusion系の2アーキテクチャが主流で、前者はMusicLM・MusicGen、後者はStable Audio・Audiocraftなどが代表例。2026年時点では「著作権問題」が最大の実運用上の落とし穴。学習データに既存楽曲が含まれる場合の権利帰属は国・プラットフォーム毎に解釈が割れており、商業利用前に利用規約の精査が必須。現場での選び方のポイントは3つ:①用途(BGM/効果音/フル楽曲)、②出力の権利クリア度、③コスト。AI PICKS調べでは、個人制作・ゲームBGM用途ならBoomyなど月額1,000〜3,000円台の専用SaaSが費用対効果で優位。映像案件など高品質フル楽曲が必要な相場感では月額$30〜$100超の上位プランが選ばれている。一方、Runway等の動画生成ツールに付属する音楽機能は手軽だが尺や自由度が限られるため、音楽主体の案件には専用ツールを使い分けるのが現場の定石。生成品質はプロンプトの精度に大きく左右されるため、BPM・キー・楽器名を明示することが高品質出力の近道。
音楽生成 (Music Generation)の使用例
- 「テンポ120BPM、Cメジャー、アコースティックギターとピアノのカフェBGM、2分」と入力し著作権フリーの背景音楽を生成する。
- 「緊張感のあるオーケストラサウンド、短調、映画予告編向け、90秒」と指定してトレーラー用楽曲を30秒以内に出力する。
音楽生成 (Music Generation)に関連するAIツール
関連用語
「音声・音楽」の他の用語
AI 音楽生成サービス。 歌詞 + ジャンル指定で 完成楽曲を 1 分で生成。
OpenAI のオープンソース音声認識モデル。 99 言語対応、 日本語精度も高い。
AI 音声生成のトップサービス。 自分の声をクローンして 多言語ナレーションに使える。
TTS(音声合成)とは、テキストデータを人間らしい音声に変換するAI技術のこと。ナレーション・コールセンター・音声UIなど幅広い用途で使われ、2026年現在は人間と聞き分けにくい品質が標準となっている。
ASR(自動音声認識)とは、人間の音声をリアルタイムまたは録音データからテキストへ自動変換する技術のこと。Whisperなどの深層学習モデルの普及により、文字起こし・音声コマンド・翻訳など幅広い用途で活用される。
ボイスクローンとは、数秒〜数分の音声サンプルから特定人物の声質・話し方・抑揚を高精度に再現するAI音声合成技術のこと。
AI用語辞典をすべて見てみませんか
12カテゴリ・152語以上を体系的に整理しています
辞典トップへ