Wan (通義万相)
読み: わん (つうぎまんそう)
最終更新: 2026-06-27・AI PICKS編集部
定義
Wan (通義万相) とはアリババ(阿里巴巴)が開発したオープンソースの動画生成 AI モデルのこと。テキストや画像から高品質な短尺動画を生成できる。
Wan (通義万相)とは — 詳しく解説
Wan (通義万相) はアリババの Tongyi チームが開発したオープンソースの動画生成 AI モデル。2025 年初頭に公開された Wan2.1 は、テキスト→動画 (T2V) と画像→動画 (I2V) の両タスクに対応し、公開ベンチマークでは Sora や Runway と同水準以上のスコアを記録した。Apache 2.0 ライセンスで商用利用が可能な点が競合との大きな差別化要因だ。 AI PICKS 編集部の実運用評価では、ローカル GPU(A100 相当)での推論が可能なため、クラウド API コストをゼロにできる唯一に近い選択肢として注目されている。2026 年時点のクラウド経由の相場感は生成 1 分あたり $0.03〜$0.10 程度と Runway Gen-3 や Google Veo 2 の半額以下。 現場での選び方として「5〜10 秒の短尺クリップを大量生成する用途なら Wan、尺が長くなるほど Runway/Veo 2」という使い分けが定着しつつある。落とし穴は長尺での動きの一貫性が崩れやすい点と、日本語プロンプトの精度が英語より約 2 割低い点。事例としては EC 商品ページの動くバナーや SNS 広告用クリップ生成での採用が増えている。
Wan (通義万相)の使用例
- 「夕暮れの東京、ドローン俯瞰映像、シネマティック、4K」でプロモーション用 5 秒動画を T2V 生成する活用例。
- I2V モードで商品静止画をアニメーション化し、EC サイトの動的バナー広告として低コストで量産する現場事例。
Wan (通義万相)に関連するAIツール
関連用語
「動画生成」の他の用語
OpenAI の動画生成 AI。 ChatGPT Pro で利用可能、 最大 20 秒の高品質動画を生成。
プロ向け AI 動画編集・生成スイート。 Gen-3 / Gen-4 で 映画品質の動画を生成。
VeoとはGoogle DeepMindが開発した動画生成AIモデルのこと。テキストプロンプトや静止画から高精細な動画を生成でき、物理的整合性と映像の時間的一貫性においてSoraと並ぶ業界最高水準を誇る。
Kling(可灵)とは、中国の快手(Kuaishou)が開発したAI動画生成モデルのこと。テキストや画像から最大2分・1080pの高品質動画を生成でき、SoraやRunwayと並ぶ有力な動画生成AIとして世界的に注目されている。
PikaとはテキストプロンプトやAI画像を入力するだけで3〜10秒の高品質な短尺動画クリップを自動生成できるAI動画生成プラットフォームのこと。
Luma Dream Machineとは、Luma AIが提供するテキストや画像から高品質な動画クリップを自動生成できるAIビデオ生成ツールのこと。物理的にリアルな映像と滑らかなカメラワークを特徴とする。
AI用語辞典をすべて見てみませんか
12カテゴリ・202語以上を体系的に整理しています
辞典トップへ