ComfyUI×WAN 2.2のローカル動画生成環境|RTX 4060で5秒動画を2分半・年$840節約

VRAM 8GBで5秒動画を2分半・年$840浮かす|ComfyUI×WAN 2.2ローカル動画生成 (2026年版)

この記事のポイント ComfyUI v0.19 + WAN 2.2 5B(fp8量子化版で5.8GB前後、正確なファイル名は公式リポジトリで要確認)なら、RTX 4060 8GB/M2 Max 32GBクラスでも5秒動画が2分30秒〜5分台で出る(2026-05時点の構成別目安)。Runway Standard $35 + Pika Pro $35の合計$70/月を解約すれば年$840が浮き、Apache 2.0系ライセンスなら商用の追加課金もゼロ。テキスト→動画と画像→動画を90分で立ち上げる手順を、つまずく場所ごとに並べる。

ComfyUI×WAN 2.2でローカル動画生成を立ち上げた構成イメージ

ローカル動画生成とは、クラウドのAIサービスを介さず、自分のPCのGPUで動画AIを直接動かす方式のことだ。クレジット残高もアップロード待ちもない。少し前なら「VRAM 24GB必須、1動画30分」が当たり前で、ハードルは高かった。

その景色を一気に変えたのがWAN 2.2 5Bだ。Alibaba系チームが公開した動画モデルで、fp8系の量子化版(モデルの精度を落として軽くした版)を選べばRTX 4060の8GB VRAMでも完走する。VRAM(GPUが動画生成のために使える専用メモリ)が8GBあれば足りる、という条件まで降りてきた。ComfyUI v0.19の側もワークフローテンプレートにResolutionSelectorApp Viewを標準搭載し、初心者がメモリ不足で落ちる罠を減らした。Desktop版の正式リリースとAMD GPU対応で、「最初の壁が高すぎる」という言い分はもう成立しない。

30秒結論|VRAM 8GBがあれば追加コスト$0で月20本回せる

VRAM 8GB以上のNVIDIA GPUか、Unified Memory 16GB以上のApple Siliconが手元にあるなら、追加ライセンス料なしで動かせる。ただし電気代・保守の手間・失敗した再生成のぶんは別勘定だ。月20本以上を生成するチームなら、クラウド費用との差額で初期投資を1〜3ヶ月で相対的に回収できる試算になりやすい。

着地点を先に置いておく。ハード要件とコストの全体像を、ローカルとクラウドで並べたのが下表だ。

項目ComfyUI + WAN 2.2(ローカル)RunwayPika(クラウド)
月額$0(電気代別)$35〜$95
1動画生成時間(5秒)2分30秒〜5分40秒30秒〜2分
生成上限ハード稼働時間の範囲内プランごとにクレジット
ライセンスApache 2.0系(公式リポジトリで要確認)プランごとに条件
顧客データ外部送信なしあり
学習コスト中(ノード理解必須)
最低ハードRTX 4060 8GB/M2 Mac 16GBブラウザのみ

差が一番効くのは月額とデータの扱いだ。Runway Standard $35 + Pika Pro $35の併用は単純計算で月$70・年$840規模のクラウド支出になる(料金は各社公式ページで2026-05時点を要確認)。ローカルに移せばこの分が浮く。代わりに電気代・GPU初期投資・失敗再ラン分は見込んでおきたい。

切り分けの軸はシンプルだ。短尺の量産はComfyUIローカル、クライアント納品の最終仕上げだけRunway。両者は競合ではない。ローカルで素材を量産してクラウドで磨く二刀流が、結局いちばん安く上がる。動画生成カテゴリには他の選択肢も並ぶが、月20本以上を回す現場ならローカル一択でいい。

なぜ2026年に「ローカル動画生成」が一気に降りてきたのか

WAN 2.2 5BとComfyUI v0.19のVRAM管理改善が、ほぼ同時期に重なった。これが分水嶺だ。

WAN 2.2 5BモデルとComfyUI v0.19のVRAM管理改善

理由は3つに整理できる。

5Bパラメータの動画モデルが実用品質に届いた。 WAN 2.2 5Bは、消費者向けGPUでも完走するApache 2.0系の動画モデルとして注目を集めている(公開日・正確なライセンス条項・ファイルサイズは公式モデルカードで要確認)。fp8系の量子化版が配布され、テキスト→動画(T2V)と画像→動画(I2V)の両方に対応する。後ろにはHunyuanVideoやLTX-2の動画拡張も続き、ComfyUIは新アーキテクチャを公開当日にサポートする運用を確立した。

ComfyUI v0.19のVRAM管理が安定した。 Server-Config画面で「8GB→lowvram、12GB→normalvram、16GB+→highvram」を選ぶだけで自動最適化が効く。fp8_e4m3fnのUNET precision設定なら、品質の劣化を最小限に抑えつつVRAMを節約できる。NVIDIAも公式ブログでGeForce RTX上の4K動画生成パイプラインを推奨し始めた。GDC 2026ではApp View機能とNVFP4モデルが発表され、ノード接続を知らないクリエイターでも単一UIで動画を出せる流れが本格化している。

クラウド動画AIの規約は、更新が頻繁で読み解きづらい。 RunwayPikaとも、生成物の権利・学習利用・商用範囲はプランや改訂日で表現が変わる。顧客案件で外部AIに動画を投げる前に、法務確認が必要なケースが増えてきた。ローカル生成なら、そもそも顧客データが社外に出ない。

3つの条件が揃ったなら、「待ち」を続ける理由はない。月20本以上を回す現場ほど、ローカルへの切り替えで年単位のクラウド費用を大きく圧縮できる。手間と引き換えに手に入るのは、クレジット切れの恐怖からの解放だ。これが想像以上に効く。

必要なハードウェアと初期投資の現実値

VRAM 8GBで5秒動画を2分半・年$840浮かす - 3

ComfyUI v0.19自体はVRAM 6GBから動く設計だが、WAN 2.2 5Bの動画生成となると8GBが事実上の下限だ。代表的な3構成で生成時間の目安を並べてみる。

マシンGPU/ChipVRAM/Unified Memory5秒動画生成時間同時バッチ数
Windows自作PCRTX 40608GB2分30秒1
MacBook ProM2 Max32GB5分40秒1
LinuxワークステーションRTX 409024GB1分10秒3並列

8GBクラスでも完走はするが、速度を求めるならVRAMが効く。RTX 4060の中古市場価格は2026-05時点で4万円台後半。M2 Mac miniは中古14万円前後で、同等の生成時間を出す。新規購入してもクラウド15〜18ヶ月分の費用で「永久ライセンス」が手に入る計算だ。

AMD GPU勢にも追い風がある。ComfyUIはROCm 6.2経由でRadeon RX 7900 XTX(24GB)を公式サポートに加えた。「動画生成はNVIDIA独占」という前提は崩れた。

ストレージは別途200GBの空きを確保したい。内訳はWAN 2.2 5B本体5.8GB、VAE 500MB、ControlNet系2GB、LoRA数本で20GB、あとは生成物の蓄積だ。SSDの書き込み寿命が気になるなら、外付けNVMeに逃がすのが無難だ。

90分セットアップ|ComfyUI Desktop版からWAN 2.2まで

VRAM 8GBで5秒動画を2分半・年$840浮かす - 4

Desktop版の正式リリースで、Pythonの仮想環境構築は不要になった。インストーラーをダウンロードして起動するだけで、CUDA/PyTorch/依存ライブラリが自動で揃う。Windows/Mac/Linuxとも手順は同じだ。所要時間の目安を各ステップに添えておく。

ステップ1: ComfyUI Desktop版インストール(10分)

公式サイトから自分のOS向けインストーラーを落とす。Windows版は約500MB、Mac版は約700MB。インストール後、初回起動時にモデル保存先ディレクトリを聞かれるので、200GB以上空きのあるドライブを指定する。

ステップ2: ComfyUI-Manager導入(5分)

カスタムノードの管理を自動化するComfyUI-Managerは、入れておかないと後が面倒だ。ターミナルで以下を実行する。

cd <ComfyUIインストール先>/custom_nodes
git clone https://github.com/ltdrdata/ComfyUI-Manager.git

ComfyUIを再起動するとManagerメニューが出現する。ここからInstall Modelsを選べば、後述のWAN 2.2モデルをワンクリックで取得できる。

ステップ3: WAN 2.2 5Bモデルのダウンロード(30〜60分)

Manager > Install Models でwan-2.2-5b-fp8を検索してインストールする。回線次第だが、5.8GBのダウンロードに15分前後。あわせてVAE(wan_vae.safetensors)とテキストエンコーダ(umt5_xxl_fp8)も入れておく。

CLIで明示的に落とすなら以下のコマンドだ。

hf download Wan-AI/Wan2.2-T2V-5B-fp8 --include "*.safetensors" --local-dir models/checkpoints
hf download Wan-AI/Wan2.2-VAE --include "*.safetensors" --local-dir models/vae

ファイル名は公式リポジトリの更新で変わることがある。Hugging Faceのモデルページで最新名を都度確認してほしい。

ステップ4: ワークフローテンプレート読み込み(5分)

ComfyUI起動後、左上メニューからWorkflow > Browse Templatesを開く。WAN 2.2 Text to VideoWAN 2.2 Image to Videoの2つが標準で入っている。これを読み込めば、ノード接続済みの状態からスタートできる。ゼロから配線する必要はない。

ステップ5: VRAM設定の最適化(5分)

Settings > ServerでVRAM Usageを選ぶ。手元のVRAMに合わせて値を決める。

  • VRAM 6-8GB → lowvram
  • VRAM 10-12GB → normalvram
  • VRAM 16GB以上 → highvram

さらにUNET Precisionfp8_e4m3fnにする。品質の劣化はほぼ目視できないのに、VRAM消費が約30%下がる。この一手でRTX 4060でも動画生成が完走するようになる。

初回生成のつまずきポイントと回避策

セットアップを終えても、最初の生成でエラーに引っかかる人は多い。代表的な4つの罠を、回避策とセットで挙げる。

ComfyUIの初回生成でよくあるエラーとその回避策

「CUDA out of memory」が出る場合。 ResolutionSelectorで512x512以下に下げる。WAN 2.2 5Bの推奨解像度は480x832(縦動画)または832x480(横動画)。フレーム数も24fps×5秒=121フレームが上限と考えていい。これを超えるとVRAM 8GBでは完走しない。

生成が異常に遅い場合(10分以上)。 タスクマネージャでGPU使用率を見る。10%以下ならCPU推論にフォールバックしている可能性が高い。SettingsのUse CUDAチェックを確認し、PyTorchがGPU版で入っているかをpython -c "import torch; print(torch.cuda.is_available())"でチェックする。

生成された動画が真っ黒・ノイズだらけ。 たいていVAEが未ロードか、テキストエンコーダのファイル名が一致していない。ワークフローのノードを上から順に追い、ファイル名がumt5_xxl_fp8_e4m3fn.safetensorsになっているかを確認する。

Macで生成すると謎のクラッシュ。 PyTorch 2.3以降のMPS(Metal Performance Shaders)バックエンドは安定したが、PYTORCH_ENABLE_MPS_FALLBACK=1環境変数を設定しないと、未対応オペレータでクラッシュする。Desktop版なら自動で入るが、ソースビルド派は要注意だ。

つまずきの9割はこの4パターンに収まる。フォーラムを検索する前に、まず上を一通り試したほうが早い。

同等カテゴリのオープンソース動画モデル比較

WAN 2.2 5Bが唯一の選択肢というわけではない。2026-05時点の主要モデルを並べてみる。

モデルパラメータ最低VRAMライセンス強み
WAN 2.2 5B5B8GBApache 2.0系バランス型・初心者向け
WAN 2.2 14B14B16GBApache 2.0系高品質・解像度上限が高い
HunyuanVideo13B16GBカスタム商用OK動きの自然さで定評
LTX-2 19B19B24GBカスタム最新・LoRA豊富
Mochi 110B12GBApache 2.0高速生成

入門ならWAN 2.2 5Bで間違いない。プロ用途や、16GB以上のVRAMがある環境なら、HunyuanVideoとLTX-2を試す価値が高い。とくにLTX-2はLoRA配布が活発で、カメラワーク制御(ドリー・パン)専用LoRAも公式から出ている。

LTX-2の詳細セットアップはDGX Spark×ComfyUIでLTX-2環境構築する手順で別途まとめた。24GB以上のGPUを持つ読者は併読を推奨する。

クラウドとの賢い使い分け|ハイブリッド運用の実例

「全部ローカルに移行すべきか」という二択で考えると、たいてい損をする。用途で割るのが正解だ。3つのフェーズに分けて使い分けるやり方を示す。

素材量産フェーズはローカル。 1本あたり数百円のクラウド費用を気にせず、30〜50本のバリエーションを生成する。アイデア探索の段階でクラウドを使うと、無意識のうちに「外れ案」を切り捨てがちだ。ローカルなら全部試せる。

最終仕上げはクラウド。 採用案が決まったら、同じプロンプト(AIへの指示文)をRunway Gen-4で1〜2本だけ再生成する。クライアント納品時のクオリティ差は、ここで明確に出る。月20クレジット程度しか使わないので、Standardプランで十分足りる。

緊急時のバックアップとしてのクラウド。 GPU故障や引っ越し中は、クラウドに切り替えればいい。ローカル環境は冗長化しにくいので、即応性が要る納期にはクラウドが保険になる。

この使い分けなら、月額の動画AI支出は$70から$15程度まで落とせる試算だ。狙いは完全移行ではなく、用途別の最適化でROIを最大化すること。クラウド側の細かい比較はSora vs Runway vs Pika 2026完全比較も参考にしてほしい。

セキュリティと商用利用|法務がOKを出すまで

ローカル生成は「データ漏洩リスクゼロ」と単純化されがちだが、確認すべき点は残る。4つに分けて押さえる。

モデルのライセンス確認は必須。 WAN 2.2はApache 2.0系として公開されているが、商用利用の細則やクレジット表記要件は公式モデルカードで都度確認したい。HunyuanVideoは「カスタム商用ライセンス」で、月間アクティブユーザー1億超のサービスは別契約が要る。

学習データの著作権リスクはゼロではない。 クラウドサービスは免責条項を契約に含むことが多いが、ローカルモデルは利用者責任だ。生成物が既存著作物に類似していないかを納品前に確認する責任は、こちら側に残る。

LoRA配布物の取り扱い。 Civitai等で配布されているLoRAには、特定の俳優・キャラクターを再現するものがある。これを商用に使うと肖像権侵害リスクが極めて高い。出所不明のLoRAは検証用途だけに留めるのが安全だ。

生成物のメタデータ管理。 ComfyUIの生成物はPNG/MP4の内部にワークフロー情報を埋め込む。クライアント納品時にプロンプトや使用モデル名が漏れる懸念があるなら、exiftool -all=でメタデータを削除する運用を挟む。

法務確認のチェックリストはAI生成コンテンツの著作権ガイド2026にもまとめた。ローカル化したからと安心せず、商用案件は都度確認する姿勢で臨みたい。

月20本以上ならROIで考えるのが正しい

クラウドかローカルかは「好み」ではなく「数」で決まる。月10本以下ならRunwayPikaで十分元が取れる。月20本を超えるあたりから、ローカル投資の回収速度が現実的になる。月50本以上なら、迷う理由がない。

試算で見るとわかりやすい。RTX 4060新品(5万円)+電気代月800円は、クラウド7ヶ月分のコストに相当する。8ヶ月目以降は実質無料で回せる計算だ。中古GPUを選べば3〜4ヶ月で回収する。

「学習コストが高い」という不安は、Desktop版とテンプレートワークフローの登場で過去のものになった。90分の初期投資で年$840が浮くなら、時給換算は破格だ。今日中にComfyUI公式サイトからDesktop版を落とし、寝る前にWAN 2.2 5Bのダウンロードを始めておけば、翌朝には動画が手元にある。

よくある質問(FAQ)

Q. RTX 3060 12GB(旧世代)でもWAN 2.2 5Bは動きますか?

動きます。VRAM 12GBあればnormalvram設定で完走する報告が、複数のフォーラムに上がっている。生成時間はRTX 4060比で1.3〜1.5倍程度(5秒動画で3〜4分前後)とみられる。CUDA Compute Capability 8.6なので、最新PyTorchの最適化も受けられる。

Q. Apple SiliconでもWindowsと同じ品質の動画が作れますか?

品質は同等です。M2 Max 32GBで生成した動画は、ピクセル単位の差はあっても目視では見分けがつかないレベル。ただし生成時間はRTX 4060の2〜2.5倍かかる。MPSバックエンドのfp8最適化が未完なため、メモリに余裕があっても速度では及ばない。夜間にバッチ放置するなら気にならない差ではある。

Q. 生成した動画の著作権は誰のものですか?

WAN 2.2のApache 2.0系ライセンスの下では、生成物の権利は利用者側に帰属する、という解釈が一般的です。ただし学習データに含まれる既存著作物との類似性は別問題で、結果的に既存作品へ酷似した場合は侵害リスクが残る。商用案件では、納品前に逆画像検索やフレーム単位の確認を入れる運用を推奨する。

Q. ComfyUIは初心者には難しすぎませんか?

v0.19のテンプレートワークフロー導入で、ハードルは大きく下がった。ノード接続を1から組む必要はもうない。Workflow > Browse Templatesから目的に合うものを選び、プロンプトとパラメータだけ調整すれば動画が出る。本気でカスタマイズしたくなったタイミングで、ノード理解を深めれば十分だ。

Q. ローカル生成の電気代はどれくらいですか?

RTX 4060の消費電力は最大115W。5秒動画生成(2分30秒)あたり約4.8Whで、東京電力従量電灯B(31円/kWh)換算で約0.15円。月100本生成しても電気代は15円程度。クラウド費用との差額を思えば誤差レベルだ。RTX 4090(450W)でも1本あたり1円未満に収まる。

編集部の評価

公開情報と2026-05時点の構成別ベンチをもとに、率直に点を付ける。

  • WAN 2.2 5B(fp8量子化版): VRAM 8GBで完走する一点だけで一択。少し前の「24GB必須」を過去にした立役者で、入門用としては圧倒的に勧めやすい。
  • ComfyUI v0.19のテンプレート: 地味に効く改善。ノード配線を知らなくてもBrowse Templatesで動画が出るので、最初の壁がほぼ消えた。
  • 生成速度: RTX 4060の2分30秒は、量産には十分だが速くはない。即応が要る納期にはクラウドが要る。ここはローカルの弱点だ。
  • Apple Silicon: 品質は同等でも速度はNVIDIAの2〜2.5倍。MPSのfp8最適化が未完なのが効いている。夜間放置前提なら気にならない。
  • 法務まわり: ローカル=安全と言い切れない。LoRAの肖像権とメタデータ漏れは、正直見落とされがちな落とし穴だ。

総じて、月20本以上を回すなら導入の判断は早いほどいい。クラウドとの二刀流に寄せておけば、速度と安全性の弱点も埋まる。

関連記事

各ツールの公式サイト(一次情報)

料金・機能・対応範囲は各社公式が一次情報です。本記事は公開時点の検証に基づきますが、最新かつ正確な条件は必ず各公式ページで確認してください。