
【2026年最新】Stable Diffusion 使い方完全ガイド|SDXL/3.5の始め方
Key Takeaway: Stable Diffusionは「無料・ローカル動作・モデル差し替え自由」の三拍子が揃った唯一のAI画像生成ツール。とりあえず触るだけならWeb版で5分、本気で使い倒すならローカル環境一択。プロンプトより「モデル選び」で9割決まる。
Stable Diffusionは、2026年現在も「カスタマイズ性で他を寄せ付けない」AI画像生成エンジンだ。MidjourneyやDALL-E 3のように完成度の高い画像が即出るタイプではなく、自分でモデルを選び、プロンプトを練り、設定を詰めていく職人ツールに近い。だからこそ、ハマる人はとことんハマる。
逆に「ボタン一発で綺麗な画像が欲しい」だけなら、正直Stable Diffusionは遠回り。この記事では、それでも使う価値がある理由と、最短で使い始める方法を全部書く。
Stable Diffusionとは何か:5分でわかる本質

Stable Diffusionとは、Stability AI社が公開しているオープンソースの画像生成AIです。テキスト(プロンプト)から画像を生成し、最大の特徴は「モデルの重みが公開されていてローカルPCで動く」こと。
他のAI画像生成ツールとの最大の違いは、APIに依存せず自分のマシンで完結できる点にある。生成枚数の制限なし、月額課金なし、生成内容の検閲もユーザー次第。これが破格。
2022年8月のv1.4公開から進化を続け、2026年現在の主力はSDXL(Stable Diffusion XL)とStable Diffusion 3.5。前者は安定性とコミュニティの厚さ、後者は最新の品質とテキスト描画能力で住み分けている。
Stable Diffusionの3つの強み
- 完全無料:モデル本体もUIも無料。電気代だけで運用できる
- モデル差し替え自由:実写特化、アニメ特化、3D特化など用途別モデルが何千種類も存在
- 商用利用OK(条件付き):CreativeML OpenRAIL-Mライセンスで商用OK、ただし派生モデルの規約は要確認
逆に弱点も書いておく。導入が面倒、GPUが必要(VRAM 8GB以上推奨)、出力品質はプロンプト次第でブレる。「触ってすぐ綺麗」を求めるならSoraやMeta AI系の最新ツールの方が正直楽だ。
Stable Diffusionの始め方:3つの選択肢を比較

Stable Diffusionの利用方法は大きく分けて3つあり、PCスペック・予算・用途によって最適解が変わります。
| 方法 | 初期コスト | 月額 | 生成速度 | 自由度 | おすすめ層 |
|---|---|---|---|---|---|
| ローカル環境 | GPU代(5万〜30万) | 電気代のみ | 速い(GPU依存) | ★★★★★ | 本気で使い込む人 |
| クラウド(Colab等) | 0円 | 1,000〜5,000円 | 中 | ★★★★ | スペック不足のPC勢 |
| オンライン(Web版) | 0円 | 0〜2,000円 | 遅め | ★★ | お試し・ライト層 |
結論を先に言う。今のメインPCにRTX 3060以上が載っているならローカル一択。それ以外なら、まずWeb版で感触を掴んでからクラウドへ移行するのが失敗しない順番だ。
ローカル環境での始め方:AUTOMATIC1111とForge

ローカル環境で使うなら、定番UIは「AUTOMATIC1111(A1111)」または高速化版の「Stable Diffusion WebUI Forge」の2択。2026年現在、新規ユーザーにはForgeを推す。理由はシンプルで、A1111と同じUIなのにVRAM消費が3〜5割少なく、生成も速いから。
必要スペック(2026年版)
実用的な目安はこのあたり:
- GPU: NVIDIA製、VRAM 8GB以上(SDXLなら12GB推奨、SD3.5なら16GB欲しい)
- メインメモリ: 16GB以上
- ストレージ: SSD 100GB以上の空き(モデルファイルが1個6GB前後)
- OS: Windows 10/11、macOS(M1以降)、Linux
Mac勢への補足。M1〜M4チップでも動くが、Windows+NVIDIA環境と比べて生成速度は半分以下。本気でやるならゲーミングPCを別途組むのが結局安い。
インストール手順(Windows + Forge)
ざっくりした流れはこう:
- Pythonをインストール(公式から3.10系を選ぶ。3.11以降は非対応のバージョンあり)
- Gitをインストール
- Forge公式リポジトリをgit clone
- webui-user.bat をダブルクリックで起動
- 初回はモデル等のダウンロードで15〜30分待つ
ブラウザでhttp://127.0.0.1:7860が開けば成功。プロンプトを入れて「Generate」を押せば、もう画像生成が始まる。
クラウド環境での始め方:Google Colab Pro

GPUが手元にないなら、Google Colab Proが現実解。月額1,179円〜で、Stable Diffusionが快適に動くGPU(T4以上)が使える。
ただし2023年以降、Googleは無料版ColabでのStable Diffusion実行を制限した。Pro以上の有料プラン必須なので注意。
Colabの実行手順
GitHubで「stable-diffusion-webui-colab」と検索すると、ワンクリックで起動できるノートブックが大量にヒットする。ノートブックを開いて、上から順にセルを実行するだけ。10分ほどで生成画面が立ち上がる。
注意点:セッションが切れると環境が消えるので、生成した画像はGoogle Driveに保存する設定を必ず入れること。これを忘れて1日分の作業が消える人を何人も見てきた。
オンライン版(Web版)での始め方:今すぐ試す3サービス
「インストール?無理。ColabもPython見たくない」という人向けに、ブラウザだけで完結するサービスもある。
代表的なのは以下の3つ:
- DreamStudio:Stability AI公式。月額10ドルで1,000枚程度生成可能
- Mage.space:無料枠あり、有料プランで多数のモデル使い放題
- Clipdrop:Stability AI買収のサービス。商用OKの編集ツールも併設
入門ならMage.spaceの無料枠で十分。プロンプトを入れて待つだけ、UIも直感的。本格運用に向かないのは、生成枚数の上限と速度の制約があるから。月100枚以上生成するなら、結局ローカルかColabに移ることになる。
SDXL vs Stable Diffusion 3.5:どっちを使うべきか
2026年現在、現役の主力モデルはこの2つ。用途で選び分けるのが正解で、両方入れておくのが賢い。
| 項目 | SDXL(1.0/Lightning) | Stable Diffusion 3.5 |
|---|---|---|
| リリース | 2023年7月 | 2024年10月 |
| 解像度 | 1024×1024 | 1024×1024〜 |
| テキスト描画 | 苦手 | 得意 |
| プロンプト追従性 | 中 | 高 |
| コミュニティモデル | 圧倒的に多い | 増加中 |
| VRAM要求 | 8〜12GB | 12〜16GB |
要約すると、「カスタマイズ済みモデルで遊ぶならSDXL、最新の素の品質を求めるならSD3.5」。アニメ特化や実写特化のファインチューニング済みモデル数では、SDXLが2026年時点でもまだ圧倒的に優勢。
プロンプトの書き方:上達の最短ルート
Stable Diffusionの出力品質は、プロンプトで7割が決まる(残り3割はモデル選びとパラメータ)。コツは英語で、カンマ区切りで、重要要素を前に置くこと。
基本構造
[主題], [詳細描写], [スタイル], [品質タグ], [ライティング]
具体例で見せる:
a young japanese woman, long black hair, white blouse,
sitting at a cafe, looking at camera,
photorealistic, 8k uhd, cinematic lighting, bokeh background
これだけで、コーヒーショップで微笑む女性のリアル写真が生成できる。
Negative Prompt(除外指定)の重要性
Stable Diffusionの真骨頂は「Negative Prompt」にある。「これは出すな」をリストで指定できる機能で、品質が劇的に上がる。
定番のNegative Promptはこれ:
low quality, worst quality, blurry, deformed,
extra fingers, bad anatomy, watermark, text
特に「extra fingers(指の本数おかしい)」と「bad anatomy(解剖学的におかしい)」は、入れるだけで失敗率が体感半分以下になる。
重みづけ(強調)テクニック
要素の重みは括弧で調整できる。(beautiful eyes:1.3)のように書くと、その要素が1.3倍強調される。0.8〜1.5の範囲で調整すると安定する。これはAUTOMATIC1111系UIの記法で、他のUIだと書き方が違う場合あり。
主要パラメータの設定値:迷ったらこれ
UI上の設定項目は山ほどあるが、最初に押さえるべきは4つだけ。
| パラメータ | 推奨値 | 役割 |
|---|---|---|
| Sampling steps | 20〜30 | 生成の試行回数。多いほど品質UPだが時間も比例 |
| Sampling method | DPM++ 2M Karras | 安定して綺麗。迷ったらこれ |
| CFG Scale | 7〜9 | プロンプト忠実度。高いと指示通り、低いと自由 |
| Seed | -1(ランダム) | 同じ数値で同じ画像を再現できる |
最初はこの設定で固定し、プロンプトとモデルを変えて遊ぶのが一番伸びる。パラメータ沼にハマると時間が溶けるので注意。
拡張機能とLoRA:Stable Diffusionが化ける瞬間
ここからがStable Diffusionの本当の楽しさ。LoRA(Low-Rank Adaptation)は、特定のキャラクター・画風・服装などをモデルに「追加学習」させる小さなファイル(数十MB〜数百MB)。
Civitai(civitai.com)というコミュニティサイトに、世界中のユーザーが作ったLoRAが何万種類も無料公開されている。例えば「特定の絵柄」「特定のポーズ」「特定の照明スタイル」などをワンクリックで適用可能。
押さえておきたい拡張機能3選
- ControlNet:ポーズ・構図・線画を入力画像で指定できる。これなしでは戻れない
- ADetailer:顔や手を自動で高解像度修正。崩れがちな部位が劇的改善
- Regional Prompter:画像の領域ごとに違うプロンプトを当てられる
ControlNetが特に革命的で、棒人間を描けば同じポーズの人物画像が生成できる。商用イラスト制作の現場でAI OCRツールと並んで「これがないと仕事にならない」と言われるレベルのインフラ化が進んでいる。
商用利用の可否:グレーゾーンを正しく理解する
Stable Diffusion本体(Stability AI公式モデル)は、CreativeML OpenRAIL-Mライセンスで商用利用OK。これは公式に明言されている。
ただし、ややこしいのは派生モデル・LoRA・Civitaiの素材。それぞれ独自のライセンスを持つ場合があり、
- 「商用OK」
- 「個人利用のみ」
- 「クレジット表記必須」
- 「特定キャラクター学習モデルは権利者承諾が必要」
など条件が分かれている。Civitaiは各モデルページに利用条件アイコンが並んでいるので、ダウンロード前に必ず確認すること。
実写系で他人の顔を学習させたモデルは、肖像権・パブリシティ権で完全アウトのケースが多い。アニメキャラのLoRAも、商用利用は二次創作としてグレーゾーン。「無料だから何でもOK」ではない点だけは絶対に覚えておきたい。
他AI画像生成ツールとの比較:いつStable Diffusionを選ぶべきか
「結局MidjourneyやDALL-Eと比べてどう?」という疑問への答えを、率直にまとめる。
| ツール | 強み | 弱み | 月額目安 |
|---|---|---|---|
| Stable Diffusion | 自由度・無料・モデル豊富 | 導入面倒・品質はプロンプト次第 | 0円〜 |
| Midjourney | 即・綺麗・芸術性 | 細かい制御不可・有料必須 | 約1,500円〜 |
| DALL-E 3 | 自然言語で意図を理解 | スタイルの一貫性弱い | ChatGPT Plus内 |
| Adobe Firefly | 商用安全・Photoshop連携 | 表現力が控えめ | Adobe CC内 |
選び方の指針はシンプル:
- 量産・カスタマイズ重視: Stable Diffusion
- 手軽に映える絵が欲しい: Midjourney
- 企画書やブログのアイキャッチ: DALL-E 3 or Firefly
ちなみに翻訳作業を絡めるならDeepLを併用してプロンプトを英訳すると、品質が地味に上がる。ノンネイティブが直接英語プロンプト書くより、日本語→DeepL→微調整の方が安定する。
編集部の利用レポート:3ヶ月使い倒した正直な感想
正直に言う。Stable Diffusionは「楽しい」けれど「楽」ではない。
導入から1週間は、UIの設定とモデル探しで終わる。最初の1ヶ月は、思った絵が出なくてイライラする。でも2ヶ月目あたりから、自分のプロンプトの引き出しが増え、お気に入りモデルとLoRAの組み合わせが固まってくると、急に楽しくなる。
編集部では現在、以下の用途で常用中:
- 記事のサムネイル画像生成(実写系SDXLモデル)
- SNS投稿のイメージカット
- プロトタイプのUI素材
逆に「ピンポイントでこの構図、この表情の人物」みたいな指定は、ControlNetを使ってもまだ難しい。完全に意図通りに出すなら、最後はPhotoshopでの加工が必要になる。
それから、思った以上に電気代がかかる点は警告しておく。RTX 4080をフル稼働させると、1日中生成し続けた場合、月の電気代が3,000〜5,000円増えた。クラウド型のAutoGPTのようなエージェント系ツールと組み合わせて自動運用するなら、Colab Proの方がトータル安い場合もある。
よくある質問(FAQ)
Q. Stable Diffusionの利用は完全無料ですか?
モデル本体・主要UI(AUTOMATIC1111、Forge)は完全無料です。ただしローカル実行にはGPU搭載PCが必要で、初期投資として5万〜30万円のハードウェア費用がかかります。クラウド版(Colab Pro等)を使う場合は月額1,000〜5,000円程度。Web版(DreamStudio等)は月額10ドル前後の有料プランが現実的です。
Q. 商用利用してもライセンス違反になりませんか?
Stability AI公式モデルはCreativeML OpenRAIL-Mライセンスで商用利用が許可されています。ただし、Civitai等で公開されているコミュニティ製モデル・LoRAは個別のライセンスがあり、商用NGや条件付き利用のものも多数。実在する人物の顔学習モデルや特定キャラクター学習LoRAは、肖像権・著作権の観点でビジネス利用は推奨しません。
Q. PCスペックが足りない場合、何から始めればいいですか?
Mage.spaceなどの無料Webサービスでまずプロンプトに慣れることをお勧めします。1〜2週間使って自分に合うと感じたら、Google Colab Pro(月額1,179円〜)に移行。本格的に量産するフェーズになってから、RTX 3060(約4万円)以上のGPU購入を検討すれば失敗しません。
Q. SDXLとStable Diffusion 3.5、初心者はどちらを選ぶべきですか?
初心者にはSDXLを推します。理由はコミュニティモデル・LoRA・チュートリアルの数が圧倒的に多く、トラブル時の情報が見つけやすいから。SD3.5は最新で素の品質は高いですが、対応するLoRAやワークフロー情報がまだ少なく、上級者向けの選択肢です。
Q. プロンプトは英語と日本語どちらで書くべきですか?
英語が圧倒的に有利です。Stable Diffusionの学習データの多くが英語キャプション付きの画像であるため、英語プロンプトの方が意図が伝わりやすく品質が安定します。英語が苦手な場合は、日本語で書いた内容をDeepLで英訳してから使うと十分実用的です。
Stable Diffusionは、AI画像生成の「自由度MAX」を体験できる唯一のツール。導入のハードルさえ乗り越えれば、月数千枚の画像を電気代だけで生成できる環境が手に入る。ハマる人には人生変わるツールなので、ぜひ一度ローカル環境で触ってみてほしい。
