Stable Diffusion入門。ローカル環境で「無制限の画像生成」を手に入れる
Midjourneyに月$10、DALL-EはChatGPT Plusの月$20に含まれるが枚数制限あり。サブスクが増えるたびに「自分のPCで動かせたら最強では?」と思ったことがあるなら、Stable Diffusionが答えだ。
オープンソース。無料。制限なし。セットアップさえ終われば、何枚でも何時間でも好きなだけ生成できる。2026年のStable Diffusion 3.5は品質面でも商用サービスに引けを取らない。
ただし正直に言う。セットアップに30分〜1時間かかるし、GPUは必要だし、Midjourneyほど「プロンプト一発で映える」わけでもない。その代わりに手に入るのは完全な自由度とコストゼロの無限生成だ。
Key Takeaway: Stable Diffusion 3.5は無料・無制限のAI画像生成ツール。ComfyUIでのセットアップは30分〜1時間。NVIDIA GPU(VRAM 8GB以上)があれば快適に動く。月額課金から解放されたいなら、セットアップのハードルを越える価値は十分ある。
Stable Diffusionが2026年でも破格の選択肢である理由
AI画像生成ツールは群雄割拠。Midjourney、DALL-E、Flux、Adobe Firefly。どれも優秀だが、Stable Diffusionだけが持つ強みが3つある。
完全無料・無制限
クラウドサービスには必ず月額課金か枚数制限がつきまとう。Midjourneyは最安でも月$10、DALL-Eは生成回数に上限あり。Stable Diffusionはゼロ円。電気代を除けば、1万枚生成しても追加コストなし。
年収100万ドル未満の個人・企業なら商用利用も無料。個人クリエイターやスタートアップはライセンスを気にする必要がない。
カスタマイズが無限
ここが他ツールとの圧倒的な差だ。LoRA(スタイルやキャラを学習させた小型モデル)、ControlNet(ポーズや構図を制御)、IP-Adapter(参照画像のスタイルを反映)。コミュニティが開発した何千もの拡張を自由に組み合わせられる。
Midjourneyで「特定キャラを自分好みのスタイルで出したい」と思っても限界がある。Stable Diffusionなら自分でモデルを学習させることすら可能だ。
データが外に出ない
ローカル実行なので、画像もプロンプトもPC内で完結する。クライアントの機密情報を含むデザイン案件や、社内プレゼン資料の画像作成など、データの外部送信が許されないケースでも安心して使える。
まずはPCスペックを確認しよう
始める前にPCのスペックを確認しておこう。重要なのはGPU(グラフィックボード)のVRAM容量だ。
| レベル | GPU | RAM | ストレージ | 用途 |
|---|---|---|---|---|
| 最低限 | NVIDIA RTX 2060(VRAM 6GB+) | 16GB | SSD 50GB+ | SD3.5 Medium |
| 推奨 | NVIDIA RTX 3060 Ti+(VRAM 8GB+) | 32GB | SSD 100GB+ | SD3.5 Large |
| 理想 | NVIDIA RTX 4070+(VRAM 12GB+) | 32GB+ | NVMe SSD 200GB+ | 大量生成・高解像度 |
OSはWindows 10/11、Linux、macOS(Apple Silicon対応)のいずれでもOK。
NVIDIAのGPUがCUDA最適化で最も互換性が高い。AMD GPUでも動くがセットアップが少し複雑になる。Apple Silicon(M1/M2/M3/M4)のMacもMPS経由で対応しているが、NVIDIA GPUほどの速度は出ない。SD3.5 Mediumなら実用的な速度で生成できる。
GPU無しのPCしかない場合は? Google Colabなどのクラウドサービスもあるが、無料枠には制限がある。本格的に使うならVRAM 8GB以上のGPU搭載PCへの投資を推奨する。RTX 3060は中古で3〜4万円程度で手に入る。
UIを選ぶ:ComfyUI vs AUTOMATIC1111 vs Forge Neo
Stable Diffusionを直接コマンドラインで動かすこともできるが、現実的にはUI(ユーザーインターフェース)を使う。2026年の主要な選択肢は3つだ。
各UIの特徴を一覧にまとめた。
| UI | 特徴 | 強み | 弱み |
|---|---|---|---|
| ComfyUI | ノードベース。2025〜2026年のメインストリーム | 最新モデル対応が最速、メモリ効率◎、拡張性◎ | 初見は直感的でない。慣れに30分必要 |
| AUTOMATIC1111 | ブラウザベースのWebUI。長年のデファクト | UIが直感的、日本語情報が豊富 | 最新モデル対応が遅い、開発が緩やか |
| Forge Neo | A1111のフォーク。速度とメモリを最適化 | A1111と同じ操作感で高速 | 拡張互換性が完全でない場合も |
2026年にゼロから始めるならComfyUI一択。最新モデルへの対応速度、メモリ効率、コミュニティの勢い、すべてでComfyUIが圧倒している。最初の30分だけ我慢すれば、あとは快適だ。
ComfyUIのインストール手順(Windows編)

ここから実際のセットアップに入る。Windowsでの手順を中心に解説するが、MacやLinuxでも流れは同じだ。
ステップ1:ComfyUIをダウンロード
ComfyUIの公式GitHubリポジトリ(github.com/comfyanonymous/ComfyUI)にアクセスし、Windows Portable Packageをダウンロードする。ポータブル版にはPythonと依存ライブラリが同梱されているため、別途Pythonのインストールは不要だ。
ダウンロードしたZIPファイルを解凍し、好きな場所に配置する(例:D:\ComfyUI)。
ステップ2:ComfyUI Managerをインストール
ComfyUI Managerは、モデルのダウンロードやノードの追加をGUI上で管理できる必須の拡張だ。
- ComfyUIフォルダ内の
custom_nodesディレクトリに移動 - GitでComfyUI Managerをクローン:
git clone https://github.com/ltdrdata/ComfyUI-Manager.git - ComfyUIを起動すると、メニューバーに「Manager」ボタンが追加される
ステップ3:SD3.5モデルをダウンロード
Hugging FaceからStable Diffusionのモデルファイルをダウンロードする。2026年3月時点でおすすめは以下の3つ。
SD3.5 Large(8.1B パラメータ): 最高品質。VRAM 10GB以上推奨。ファイルサイズ約17GB。
SD3.5 Large Turbo(高速版): わずか4ステップで生成可能。品質はLargeに近く速度は5倍。VRAM 10GB以上推奨。
SD3.5 Medium(2.5B パラメータ): 軽量版。VRAM 6〜8GBでも動作。ファイルサイズ約5GB。初心者にはこれがおすすめ。
ダウンロードしたモデルファイルを ComfyUI/models/checkpoints/ に配置する。
ステップ4:CLIPモデルをダウンロード
SD3.5にはテキストエンコーダー(CLIPモデル)が3つ必要だ。
clip_g.safetensors→ComfyUI/models/clip/に配置clip_l.safetensors→ComfyUI/models/clip/に配置t5xxl_fp16.safetensors(VRAM 16GB以上)またはt5xxl_fp8_e4m3fn.safetensors(VRAM 8〜12GB) →ComfyUI/models/clip/に配置
ステップ5:起動と初回生成
run_nvidia_gpu.bat(NVIDIA GPU)をダブルクリックしてComfyUIを起動。ブラウザが自動で開き、localhost:8188 にアクセスできる。
ComfyUIのデフォルトワークフローが表示されるので、チェックポイントモデルにSD3.5を指定し、プロンプトを入力して「Queue Prompt」をクリック。数十秒で最初の画像が生成される。
つまりインストールは「ダウンロード → 解凍 → モデル配置 → 起動」の4ステップ。Pythonのインストールすら不要だ。
Mac(Apple Silicon)での注意点
M1/M2/M3/M4 MacでもStable Diffusionは動く。ただし手順がWindowsとは少し異なる。
ComfyUIのインストール手順:
- Homebrewで依存をインストール:
brew install python git - リポジトリをクローン:
git clone https://github.com/comfyanonymous/ComfyUI.git - 仮想環境を作成して依存をインストール:
pip install -r requirements.txt - 起動:
python main.py --force-fp16
--force-fp16 オプションでApple SiliconのMPS(Metal Performance Shaders)を使ったGPU処理が有効になる。
速度の目安: M4 Macで512x512をSD3.5 Mediumで生成した場合、約20〜30秒。1024x1024だと40〜60秒。RTX 4070と比べると2〜3倍遅いが、実用範囲だ。
メモリについて: MacはCPUとGPUがメモリを共有する。16GBモデルでSD3.5 Mediumは動くが、Largeモデルは24GB以上が推奨。
はじめてのプロンプト:良い画像を出すコツ
セットアップが終わったら、いよいよ画像を生成する。Stable Diffusionのプロンプトには押さえておくべきコツがある。
基本のプロンプト構造
[品質修飾子], [被写体の説明], [スタイル], [構図・ライティング]
例: masterpiece, best quality, 1girl, long black hair, school uniform, cherry blossom background, soft lighting, depth of field
ネガティブプロンプトも重要
生成してほしくない要素を指定する。これを適切に設定するだけで画像品質が大幅に上がる。
worst quality, low quality, blurry, deformed hands, extra fingers, bad anatomy, watermark, text
SD3.5のプロンプトの特徴
SD3.5はSD1.5やSDXLと比べて自然言語に近い記述に対応している。カンマ区切りのキーワード羅列だけでなく、「A woman standing in a field of sunflowers at golden hour, wearing a white summer dress」のような文章的プロンプトでも意図を正確に反映できるようになった。
プロンプトのチートシート
よく使うキーワードを目的別にまとめた。
| 目的 | 効果的なキーワード |
|---|---|
| 写真風 | photorealistic, raw photo, 8k uhd, film grain |
| イラスト風 | anime style, digital illustration, cel shading |
| 高品質化 | masterpiece, best quality, highly detailed |
| ライティング | golden hour, studio lighting, dramatic shadows |
| 構図 | close-up, wide angle, bird's eye view, rule of thirds |
SD3.5は自然言語プロンプトに強い。ネガティブプロンプトを適切に設定するだけで品質が劇的に変わるので、ここは手を抜かないこと。
LoRA・ControlNet・IP-Adapterで表現の幅を広げる
Stable Diffusionの真価はカスタマイズ性にある。初回生成に成功したら、次は3つの拡張技術を覚えよう。
LoRA(Low-Rank Adaptation)
特定のスタイル・キャラクター・概念を学習させた小型モデル。チェックポイントモデル(数GB〜十数GB)と違い、50MB〜200MB程度と軽量で、複数を同時に適用できる。
使い方: Civitai(civitai.com)から好みのLoRAをダウンロードし、ComfyUI/models/loras/ に配置。ComfyUIのワークフローにLoRAノードを追加して接続するだけ。
「ジブリ風」「ピクセルアート」「水彩画風」などのスタイルLoRA、特定キャラのLoRA、建築スタイルのLoRAなど、コミュニティが作成した数万のLoRAが無料で使える。
ControlNet
ポーズ・輪郭・深度マップなどの情報を使って、生成画像の構図を精密にコントロールする技術。「思い通りの構図の画像を出す」ために革命的だ。
代表的なモード:
- Canny(線画): 参照画像の輪郭に沿った画像を生成
- OpenPose(ポーズ): 棒人間でポーズを指定して、そのポーズで画像を生成
- Depth(深度): 参照画像の奥行き情報を使い、同じ空間構成で別スタイルの画像を生成
ランダム性が強いAI画像生成において、意図した構図を実現できる唯一の方法と言っても過言ではない。
IP-Adapter
参照画像のスタイルや雰囲気を新しい画像に反映させる技術。「この画像の雰囲気で、別の内容を作りたい」という場面で重宝する。
LoRA(学習が必要)と違い、参照画像を1枚渡すだけでスタイルを反映できる。手軽さでは3つの中で最も使いやすい拡張だ。
LoRA = スタイル学習、ControlNet = 構図制御、IP-Adapter = 雰囲気転写。この3つを使いこなせば、商用サービス以上の表現力が手に入る。
SDXL vs SD3.5 — どちらのモデルを使うべき?
2026年3月時点でローカルで使えるStable Diffusionモデルは大きく2世代ある。正直、両方入れておくのが最強だが、まずは違いを把握しよう。
SDXL(Stable Diffusion XL)
2023年リリースの成熟モデル。コミュニティが長年使い込んでいるため、LoRAやファインチューニングモデルの数が圧倒的。VRAM 6GBでも動く軽量さもメリットだ。
向いている用途: アニメ・イラスト系(コミュニティモデルが充実)、VRAM 6〜8GBの環境、特定スタイルに特化した生成
SD3.5(最新世代)
MMDiT-Xアーキテクチャ採用の最新モデル。テキスト理解力、手指の描画精度、プロンプトへの忠実度がSDXLから大幅に向上している。
向いている用途: 写真風のリアルな画像、テキスト入り画像、プロンプト通りの正確な生成、商用利用
アニメ・イラスト系ならSDXL、それ以外ならSD3.5。用途で使い分けるのがベストだ。
Stable Diffusionと[Midjourney](/tool/midjourney)・[DALL-E](/tool/dall-e-3)の使い分け
3つは「競合」というより「補完」の関係。どれか1つに絞る必要はない。
Stable Diffusionを選ぶべき場面:
- コスト重視:大量の画像を生成する必要がある
- カスタマイズ:特定スタイルやキャラの一貫性が必要
- プライバシー:データを外部サーバーに送れない
- 学習目的:AI画像生成の仕組みを深く理解したい
Midjourneyを選ぶべき場面:
- 美しさ重視:アート品質の画像を手軽に作りたい
- 時間重視:セットアップに時間をかけたくない
- プロンプト一発:試行錯誤せず映える画像がほしい
DALL-Eを選ぶべき場面:
- ChatGPT統合:テキスト生成と画像生成を一箇所で
- テキスト入り画像:バナーやサムネにテキストを含めたい
- 手軽さ最優先:ブラウザだけで完結させたい
Stable Diffusionは「大量生成 x カスタマイズ x プライバシー」に強い。Midjourneyは美しさ、DALL-Eは手軽さで勝る。
よくあるトラブルと解決策
セットアップや生成で詰まったら、まずここを確認してほしい。
「Out of Memory(VRAM不足)」エラー
最も多いトラブル。以下を順に試す。
- SD3.5 MediumやFP8モデルに切り替える
- 生成解像度を512x512に下げる
- ComfyUIの起動オプションに
--lowvramを追加 - VAEのタイリングを有効にする
生成画像がぼやける・品質が低い
- ネガティブプロンプトに
worst quality, low quality, blurryを追加 - CFGスケールを6〜8に設定(高すぎると色が飽和する)
- ステップ数を20〜30に設定(少なすぎると品質低下)
- SD3.5 Largeを使っているか確認
手指が崩れる
AI画像生成の宿命的な弱点だが、SD3.5で大幅に改善された。
- ネガティブプロンプトに
bad hands, extra fingers, deformed handsを追加 - ADetailer(After Detailer)拡張で手指部分を自動修復
- ControlNetのOpenPoseで手のポーズを指定
ComfyUIが起動しない
- Python環境の競合が原因のことが多い。ポータブル版を使えば回避できる
- NVIDIAドライバーを最新版に更新
- CUDAのバージョンがComfyUIの要件と合っているか確認
編集部の利用レポート
AI PICKSの編集部でStable Diffusion 3.5を3ヶ月使い込んだ率直な感想。
- ComfyUI: 正直、最初の30分は微妙だった。ノードの概念に慣れるまで「A1111に戻ろうかな」と何度も思った。が、ワークフローを保存して使い回せるようになった瞬間、もうA1111には戻れなくなった
- SD3.5 Large Turbo: 4ステップで高品質な画像が出る。速度と品質のバランスが破格。日常的な生成はほぼこれで済む
- SD3.5 Medium: VRAM 8GBのサブ機で検証。実用十分な品質で動く。エントリーモデルとしては一択
- LoRA: Civitaiで人気のスタイルLoRAを10個ほど試した。当たり外れはあるが、ハマると圧倒的にクオリティが上がる。「ジブリ風」LoRAは正直イマイチだったが、「水彩画風」は重宝した
- ControlNet: これがないとStable Diffusionの魅力は半減する。OpenPoseでポーズ指定 → LoRAでスタイル適用の組み合わせが最も実用的
- Midjourney比較: プロンプト一発の美しさではまだMidjourneyが上。ただし、ControlNet+LoRAで構図とスタイルを固めた生成は、Midjourneyでは不可能な領域
- 総評: セットアップのハードルさえ越えれば、コスパは圧倒的。月$10〜20のサブスク代が浮く上に、表現の自由度は比較にならない
AI PICKSの独自評価
AI PICKSでは500以上のAIツールを独自基準でスコアリングしている。
| ツール名 | 総合スコア | 料金タイプ |
|---|---|---|
| Stable Diffusion | 86pt | 無料 |
| Midjourney | 91pt | 有料 |
| DALL-E 3 | 85pt | フリーミアム |
Midjourneyのスコアが高いのは「手軽さ」と「初手の美しさ」の評価が大きい。カスタマイズ性とコスパを重視するならStable Diffusionが逆転する。
スコアはAI PICKSの独自基準で算出。詳細は評価基準についてをご覧ください。
よくある質問(FAQ)
Q. GPUがないPCでもStable Diffusionは使えますか?
Google Colabなどのクラウドサービスを使えば動かせます。ただし無料枠には制限があり、本格利用には向きません。VRAM 8GB以上のNVIDIA GPU搭載PCがあると快適です。RTX 3060は中古で3〜4万円程度。
Q. ComfyUIとAUTOMATIC1111、どちらを選ぶべきですか?
2026年にゼロから始めるならComfyUI一択です。最新モデル対応速度、メモリ効率、コミュニティの勢いのすべてで優位。最初の30分だけノードベースの操作に慣れる必要がありますが、そこを越えれば快適です。
Q. Stable Diffusionで生成した画像は商用利用できますか?
年収100万ドル未満の個人・企業であれば、SD3.5で生成した画像の商用利用は無料で可能です。ただし、使用するLoRAやファインチューニングモデルのライセンスは別途確認が必要です。
Q. MidjourneyやDALL-Eと比べてどうですか?
プロンプト一発の美しさではMidjourneyが上。手軽さではDALL-Eが上。Stable Diffusionの強みは「無料・無制限・カスタマイズ自由・データがローカル完結」の4点です。大量生成や特定スタイルの一貫性が必要な場面では圧倒的に有利です。
Q. MacでもStable Diffusionは動きますか?
Apple Silicon(M1/M2/M3/M4)のMacで動きます。MPS経由でGPU処理が可能ですが、NVIDIA GPUほどの速度は出ません。SD3.5 Mediumなら実用的な速度で生成できます。Largeモデルはユニファイドメモリ24GB以上を推奨します。
