
Stable Diffusion入門。ローカル環境で「無制限の画像生成」を手に入れる
Midjourneyに月$10払って、DALL-Eの枚数制限にイライラして、サブスクを増やすたびに「自分のPCで動かせたら最強じゃん」と思ったことがあるなら、Stable Diffusionがその答えです。
オープンソース。無料。制限なし。一度セットアップしてしまえば、何枚でも、何時間でも、好きなだけ画像を生成できます。しかも2026年のStable Diffusion 3.5は、品質面でも商用サービスに引けを取りません。
ただし、正直に言います。セットアップには30分〜1時間かかるし、GPUが必要だし、Midjourneyほど「プロンプト一発で映える画像」にはなりません。その代わりに得られるのは、完全な自由度とコストゼロの無限生成です。
この記事では、PCの準備からインストール、最初の画像生成、そしてLoRAやControlNetを使った応用まで、初心者がゼロからStable Diffusionを使えるようになるまでの全工程を解説します。
📌 ポイント: Stable Diffusionは「無料で無制限」のAI画像生成ツール。セットアップのハードルさえ越えれば、月額課金から解放される。
Stable Diffusionが2026年でも最強の選択肢である理由

AI画像生成ツールは群雄割拠です。Midjourney、DALL-E、Flux、Adobe Firefly。どれも優秀。でも、Stable Diffusionだけが持っている強みが3つあります。
完全無料・無制限で使える
クラウドサービスは月額課金か枚数制限があります。Midjourneyは最安でも月$10、DALL-EはChatGPT Plusの月$20に含まれるものの生成回数に上限あり。Stable Diffusionはゼロ円です。電気代を除けば、1万枚生成しても追加コストなし。
年収100万ドル未満の個人・企業であれば、商用利用も完全に無料です。つまり個人クリエイターやスタートアップは、実質的に商用利用の心配をする必要がありません。
カスタマイズが無限
これが他のツールとの最大の差です。LoRA(特定スタイルや人物を学習させた小型モデル)、ControlNet(ポーズや構図を制御する技術)、IP-Adapter(参照画像のスタイルを反映)など、コミュニティが開発した何千もの拡張を自由に組み合わせられます。
Midjourneyで「特定のキャラクターを自分好みのスタイルで出したい」と思っても限界があります。Stable Diffusionなら、自分でモデルを学習させることすら可能です。
データが外に出ない
ローカル実行なので、画像もプロンプトも自分のPC内で完結します。クライアントの機密情報を含むデザイン案件や、社内プレゼン資料の画像作成など、データの外部送信が許されないケースでも安心して使えます。
📌 ポイント: Stable Diffusionは「無料×カスタマイズ×プライバシー」の三拍子。クラウドサービスでは実現できない自由度がある。
まずはPCスペックを確認しよう
Stable Diffusionを快適に使うための推奨スペックは以下の通りです。
最低限のスペック(SD3.5 Mediumを動かす):
- GPU: NVIDIA RTX 2060(VRAM 6GB以上)
- RAM: 16GB
- ストレージ: SSD 50GB以上の空き容量
- OS: Windows 10/11、Linux、macOS(Apple Siliconも対応)
推奨スペック(SD3.5 Largeをストレス無く動かす):
- GPU: NVIDIA RTX 3060 Ti以上(VRAM 8GB以上)
- RAM: 32GB
- ストレージ: SSD 100GB以上の空き容量
理想スペック(大量生成&高解像度):
- GPU: NVIDIA RTX 4070以上(VRAM 12GB以上)
- RAM: 32GB以上
- ストレージ: NVMe SSD 200GB以上
重要なのはGPU(グラフィックボード)のVRAM容量です。NVIDIAのGPUが最も互換性が高く、CUDAに最適化されています。AMD GPUでも動きますが、セットアップが少し複雑になります。
Apple Silicon(M1/M2/M3/M4)のMacでも動きます。MPS(Metal Performance Shaders)を使ってGPU処理ができますが、NVIDIA GPUほどの速度は出ません。SD3.5 Mediumなら実用的な速度で生成できます。
GPU無しのPCしかない場合は? Google Colabなどのクラウドサービスを使う手もありますが、無料枠には制限があります。本格的に使うなら、VRAM 8GB以上のGPU搭載PCへの投資を推奨します。RTX 3060は中古で3〜4万円程度で手に入ります。
📌 ポイント: NVIDIA GPU(VRAM 8GB以上)があれば快適。6GBでもSD3.5 MediumやTurboモデルなら十分動く。
UIを選ぶ:ComfyUI vs AUTOMATIC1111 vs Forge Neo
Stable Diffusionを直接コマンドラインで動かすこともできますが、現実的にはUI(ユーザーインターフェース)を使います。2026年の主要な選択肢は3つです。
ComfyUI(推奨)
2025〜2026年にかけて急速にシェアを拡大し、現在のメインストリームです。ノードベースのインターフェースで、画像生成のワークフロー(パイプライン)を視覚的に構築できます。
強み: 最新モデルへの対応が最速、メモリ効率が良い、複雑なワークフローが構築可能、拡張性が高い 弱み: 初見では操作が直感的でない、ノードの概念に慣れるまで30分程度必要
AUTOMATIC1111(WebUI)
長らくStable Diffusionのデファクトスタンダードだったインターフェース。シンプルなWebブラウザベースのUIで、初心者にはComfyUIより取っつきやすいです。
強み: UIが直感的、情報が多い(日本語記事も豊富)、拡張機能が充実 弱み: 最新モデル対応がやや遅い、メモリ効率がComfyUIに劣る、開発が緩やかに
Forge Neo UI
AUTOMATIC1111のフォーク(派生版)で、メモリ最適化と速度改善を施したものです。AUTOMATIC1111の使い勝手を維持しつつ、パフォーマンスを向上させています。
強み: AUTOMATIC1111と同じ操作感で高速化、VRAM使用量が少ない 弱み: AUTOMATIC1111との拡張互換性が完全ではない場合も
結論: 2026年にこれから始めるならComfyUI一択です。最新モデルへの対応速度、メモリ効率、コミュニティの勢い、すべてでComfyUIが圧倒しています。最初の30分だけ慣れれば、あとは快適です。
📌 ポイント: 2026年のUIはComfyUI一択。ノードベースの学習コストは最初の30分だけ。情報量・対応速度・効率のすべてで他を圧倒。
ComfyUIのインストール手順(Windows編)
ここからは実際のセットアップに入ります。Windowsでの手順を中心に解説しますが、MacやLinuxでも基本的な流れは同じです。
ステップ1:ComfyUIをダウンロード
ComfyUIの公式GitHubリポジトリ(github.com/comfyanonymous/ComfyUI)にアクセスし、Windows Portable Packageをダウンロードします。ポータブル版にはPythonと依存ライブラリが同梱されているため、別途Pythonのインストールは不要です。
ダウンロードしたZIPファイルを解凍し、好きな場所に配置します(例:D:\ComfyUI)。
ステップ2:ComfyUI Managerをインストール
ComfyUI Manager は、モデルのダウンロードやノードの追加をGUI上で管理できる必須の拡張です。
- ComfyUIフォルダ内の
custom_nodesディレクトリに移動 - GitでComfyUI Managerをクローン:
git clone https://github.com/ltdrdata/ComfyUI-Manager.git - ComfyUIを起動すると、メニューバーに「Manager」ボタンが追加される
ステップ3:SD3.5モデルをダウンロード
Hugging FaceからStable Diffusionのモデルファイルをダウンロードします。2026年3月時点でおすすめのモデルは以下の3つです。
SD3.5 Large(8.1B パラメータ): 最高品質。VRAM 10GB以上推奨。ファイルサイズ約17GB。
SD3.5 Large Turbo(高速版): わずか4ステップで生成可能。品質はLargeに近く速度は5倍。VRAM 10GB以上推奨。
SD3.5 Medium(2.5B パラメータ): 軽量版。VRAM 6〜8GBでも動作。ファイルサイズ約5GB。初心者にはこれがおすすめ。
ダウンロードしたモデルファイルを ComfyUI/models/checkpoints/ に配置します。
ステップ4:CLIPモデルをダウンロード
SD3.5にはテキストエンコーダー(CLIPモデル)が3つ必要です。
clip_g.safetensors→ComfyUI/models/clip/に配置clip_l.safetensors→ComfyUI/models/clip/に配置t5xxl_fp16.safetensors(VRAM 16GB以上)またはt5xxl_fp8_e4m3fn.safetensors(VRAM 8〜12GB) →ComfyUI/models/clip/に配置
ステップ5:起動と初回生成
run_nvidia_gpu.bat(NVIDIA GPU)をダブルクリックしてComfyUIを起動。ブラウザが自動で開き、localhost:8188 にアクセスできます。
ComfyUIのデフォルトワークフローが表示されるので、チェックポイントモデルにSD3.5を指定し、プロンプトを入力して「Queue Prompt」をクリック。数十秒で最初の画像が生成されます。
📌 ポイント: インストールは「ダウンロード→解凍→モデル配置→起動」の4ステップ。Pythonのインストールすら不要。
Mac(Apple Silicon)での注意点
M1/M2/M3/M4 MacでもStable Diffusionは動きます。ただし手順がWindowsとは少し異なります。
ComfyUIのインストール:
- Homebrewで必要な依存をインストール(
brew install python git) - ComfyUIのリポジトリをクローン:
git clone https://github.com/comfyanonymous/ComfyUI.git - 仮想環境を作成して依存をインストール:
pip install -r requirements.txt python main.py --force-fp16で起動
--force-fp16 オプションを付けることで、Apple SiliconのMPS(Metal Performance Shaders)を使ったGPU処理が有効になります。
速度の目安: M4 Macで512×512画像をSD3.5 Mediumで生成した場合、約20〜30秒程度。1024×1024だと40〜60秒。NVIDIA RTX 4070と比べると2〜3倍遅いですが、実用的な範囲です。
メモリ(ユニファイドメモリ): MacはCPUとGPUがメモリを共有する仕組みです。16GBモデルでSD3.5 Mediumは動きますが、Largeモデルは24GB以上のモデルが推奨です。
はじめてのプロンプト:良い画像を出すコツ
ComfyUIのセットアップが終わったら、実際に画像を生成しましょう。Stable Diffusionのプロンプト(指示文)には、いくつかのコツがあります。
基本のプロンプト構造
[品質修飾子], [被写体の説明], [スタイル], [構図・ライティング]
例:
masterpiece, best quality, 1girl, long black hair, school uniform,
cherry blossom background, soft lighting, depth of field
ネガティブプロンプトも重要
生成してほしくない要素を指定します。これを適切に設定するだけで画像品質が大幅に向上します。
worst quality, low quality, blurry, deformed hands, extra fingers,
bad anatomy, watermark, text
SD3.5のプロンプトの特徴
SD3.5は以前のバージョン(SD1.5やSDXL)と比べて、自然言語に近い記述に対応しています。カンマ区切りのキーワード羅列だけでなく、「A woman standing in a field of sunflowers at golden hour, wearing a white summer dress」のような文章的なプロンプトでも、意図を正確に反映できるようになりました。
プロンプトのチートシート
| 目的 | 効果的なキーワード |
|---|---|
| 写真風 | photorealistic, raw photo, 8k uhd, film grain |
| イラスト風 | anime style, digital illustration, cel shading |
| 高品質化 | masterpiece, best quality, highly detailed |
| ライティング | golden hour, studio lighting, dramatic shadows |
| 構図 | close-up, wide angle, bird's eye view, rule of thirds |
📌 ポイント: SD3.5は自然言語プロンプトに強い。ネガティブプロンプトを適切に設定するだけで品質が劇的に上がる。
LoRA・ControlNet・IP-Adapterで表現の幅を広げる

Stable Diffusionの真価はカスタマイズ性にあります。3つの重要な拡張技術を紹介します。
LoRA(Low-Rank Adaptation)
特定のスタイル・キャラクター・概念を学習させた小型モデルです。チェックポイントモデル(数GB〜十数GB)と違い、50MB〜200MB程度と軽量で、複数のLoRAを同時に適用できます。
使い方: Civitai(civitai.com)から好みのLoRAをダウンロードし、ComfyUI/models/loras/ に配置。ComfyUIのワークフローにLoRAノードを追加して接続するだけ。
例えば: 「ジブリ風」「ピクセルアート」「水彩画風」などのスタイルLoRA、特定のアニメキャラクターのLoRA、建築物のスタイルLoRAなど、コミュニティが作成した数万のLoRAが無料で利用できます。
ControlNet
ポーズ・輪郭・深度マップなどの情報を使って、生成される画像の構図を精密にコントロールする技術です。
代表的なモード:
- Canny(線画): 参照画像の輪郭を検出し、その構造に沿った画像を生成
- OpenPose(ポーズ): 人物のポーズ(棒人間)を指定して、そのポーズで画像を生成
- Depth(深度): 参照画像の奥行き情報を使って、同じ空間構成で別のスタイルの画像を生成
ControlNetは「思い通りの構図の画像を出す」ために革命的な技術です。ランダム性が強いAI画像生成において、意図した構図を実現できる唯一の方法と言っても過言ではありません。
IP-Adapter
参照画像のスタイルや雰囲気を新しい画像に反映させる技術です。「この画像の雰囲気で、別の内容の画像を作りたい」という場合に威力を発揮します。
LoRA(学習が必要)とは異なり、参照画像を1枚渡すだけでスタイルを反映できるため、手軽さという点では最も使いやすい拡張です。
📌 ポイント: LoRA=スタイル学習、ControlNet=構図制御、IP-Adapter=雰囲気転写。この3つを使いこなせば、商用サービス以上の表現力が手に入る。
SDXL vs SD3.5 — どちらのモデルを使うべき?
2026年3月時点で、ローカルで使えるStable Diffusionのモデルは大きく2世代あります。
SDXL(Stable Diffusion XL)
2023年リリースの成熟モデル。コミュニティが長年使い込んでいるため、LoRAやファインチューニングモデルの数が圧倒的に多いです。VRAM 6GBでも動く軽量さもメリット。
向いている用途: アニメ・イラスト系の画像生成(コミュニティモデルが充実)、VRAM 6〜8GBの環境、特定のスタイルに特化した生成
SD3.5(最新世代)
MMDiT-Xアーキテクチャを採用した最新モデル。テキストの理解力、手指の描画精度、プロンプトへの忠実度がSDXLから大幅に向上しています。
向いている用途: 写真風のリアルな画像、テキスト入り画像、プロンプト通りの正確な画像生成、商用利用
結論: アニメ・イラスト系ならSDXL(コミュニティモデルの選択肢が多い)、それ以外ならSD3.5。両方インストールしておいて、用途で使い分けるのが最強。
Stable Diffusionと[Midjourney](/tool/midjourney)・[DALL-E](/tool/dalle)の使い分け
3つは「競合」というより「補完」の関係です。
Stable Diffusionを選ぶべき場面:
- コスト重視:大量の画像を生成する必要がある
- カスタマイズ:特定のスタイルやキャラクターの一貫性が必要
- プライバシー:データを外部サーバーに送信したくない
- 学習目的:AI画像生成の仕組みを深く理解したい
Midjourneyを選ぶべき場面:
- 美しさ重視:アート品質の画像を手軽に作りたい
- 時間重視:セットアップに時間をかけたくない
- プロンプト一発:試行錯誤せずに映える画像がほしい
DALL-Eを選ぶべき場面:
- ChatGPT統合:テキスト生成と画像生成を一つの場所で
- テキスト入り画像:バナーやサムネイルにテキストを含めたい
- 手軽さ最優先:ブラウザだけで完結させたい
📌 ポイント: Stable Diffusionは「大量生成×カスタマイズ×プライバシー」に強い。Midjourneyは美しさ、DALL-Eは手軽さで勝る。
よくあるトラブルと解決策
「Out of Memory(VRAM不足)」エラー
最も多いトラブルです。以下を試してください。
- SD3.5 MediumやFP8モデルに切り替える
- 生成解像度を512×512に下げる
- ComfyUIの起動オプションに
--lowvramを追加 - VAEのタイリングを有効にする
生成画像がぼやける・品質が低い
- ネガティブプロンプトに
worst quality, low quality, blurryを追加 - CFGスケールを6〜8に設定(高すぎると色が飽和する)
- ステップ数を20〜30に設定(少なすぎると品質低下)
- SD3.5 Largeを使っているか確認
手指が崩れる
AIの宿命的な弱点ですが、SD3.5で大幅に改善されました。
- ネガティブプロンプトに
bad hands, extra fingers, deformed handsを追加 - ADetailer(After Detailer)拡張で手指部分を自動修復
- ControlNetのOpenPoseで手のポーズを指定
ComfyUIが起動しない
- Python環境の競合が原因であることが多い。ポータブル版を使えば回避できる
- NVIDIA ドライバーを最新版に更新
- CUDAのバージョンがComfyUIの要件と合っているか確認
まとめ:Stable Diffusionは「自由」のためのツール
Stable Diffusionの本質は「自由」です。お金の自由、表現の自由、データの自由。
セットアップには確かにハードルがあります。でも、一度乗り越えてしまえば、月額課金も枚数制限も存在しない世界が待っています。コミュニティが毎日新しいLoRA、ワークフロー、テクニックを生み出し続けているので、使えば使うほど可能性が広がります。
2026年のStable Diffusion 3.5は、品質面でもMidjourneyやDALL-Eと十分に勝負できるレベルに到達しました。特にSD3.5 Large Turboは、4ステップで高品質な画像を生成でき、速度面での不満もほぼ解消されています。
次のステップ:
- まずComfyUIをインストールして、SD3.5 Mediumで初回生成を体験する
- Civitaiで人気のLoRAを2〜3個ダウンロードして、スタイルを変えて遊ぶ
- ControlNetを導入して、構図コントロールを試す
- 慣れてきたらSD3.5 Largeに移行して品質を追求する
AI画像生成の世界への入口として、Stable Diffusionは最も奥が深く、最もコスパの良い選択肢です。
