テキスト・トゥ・ビデオ (動画生成)
読み: てきすととぅびでお
最終更新: 2026-06-25・AI PICKS編集部
定義
テキスト・トゥ・ビデオとはテキストプロンプトを入力するだけで動画を自動生成するAI技術のこと。文章から映像・音声・ナレーションまでを一括生成でき、動画制作を民主化する。
テキスト・トゥ・ビデオ (動画生成)とは — 詳しく解説
テキスト・トゥ・ビデオ(Text-to-Video)は、自然言語のプロンプトから数秒〜数分の動画クリップを生成するAI技術。拡散モデルやトランスフォーマーアーキテクチャを活用し、フレーム間の時間的整合性を保ちながら映像を出力する。 2026年時点の主要サービスはSora(OpenAI)、Runway Gen-3、Hailuo AI(MiniMax)、Kling(Kuaishou)など。実運用での落とし穴として「手指の描写精度」「長尺動画の映像一貫性」「日本語プロンプトの解釈精度」が課題として残る。 現場での選び方は用途次第で、SNS向け短尺ならHailuo AIが無料枠でも実用的。広告・映像制作用途にはRunway Gen-3が安定している。相場感としては月額$15〜$100が主流で、API従量課金では1秒あたり$0.1〜$0.5程度。 AI PICKSが2026年に確認した事例では、商品PRの15秒動画をテキストプロンプトのみで制作し、制作コストを従来比70%以上削減した国内マーケターも登場している。商用利用時は著作権・生成コンテンツの権利帰属について各サービスの利用規約を必ず確認すること。
テキスト・トゥ・ビデオ (動画生成)の使用例
- 「桜が舞う東京の夜景をドローンで上空から撮影したシネマティック映像、4K、スローモーション」とプロンプト入力し、Hailuo AIで5秒の動画を無料枠で生成した事例。
- 商品PRの15秒動画を「白背景で製品が360度回転しテキストが現れるプロフェッショナルな広告風」とプロンプトのみで制作し、外注費ゼロで完成させた実例。
テキスト・トゥ・ビデオ (動画生成)に関連するAIツール
関連用語
「動画生成」の他の用語
OpenAI の動画生成 AI。 ChatGPT Pro で利用可能、 最大 20 秒の高品質動画を生成。
プロ向け AI 動画編集・生成スイート。 Gen-3 / Gen-4 で 映画品質の動画を生成。
VeoとはGoogle DeepMindが開発した動画生成AIモデルのこと。テキストプロンプトや静止画から高精細な動画を生成でき、物理的整合性と映像の時間的一貫性においてSoraと並ぶ業界最高水準を誇る。
Kling(可灵)とは、中国の快手(Kuaishou)が開発したAI動画生成モデルのこと。テキストや画像から最大2分・1080pの高品質動画を生成でき、SoraやRunwayと並ぶ有力な動画生成AIとして世界的に注目されている。
PikaとはテキストプロンプトやAI画像を入力するだけで3〜10秒の高品質な短尺動画クリップを自動生成できるAI動画生成プラットフォームのこと。
Luma Dream Machineとは、Luma AIが提供するテキストや画像から高品質な動画クリップを自動生成できるAIビデオ生成ツールのこと。物理的にリアルな映像と滑らかなカメラワークを特徴とする。
AI用語辞典をすべて見てみませんか
12カテゴリ・102語以上を体系的に整理しています
辞典トップへ