【2026年最新】Stable Diffusion 使い方完全ガイド|SDXL/3.5の始め方

【2026年最新】Stable Diffusion 使い方完全ガイド|SDXL/3.5の始め方

Key Takeaway: Stable Diffusionは「無料・ローカル動作・モデル差し替え自由」の三拍子が揃った唯一のAI画像生成ツール。とりあえず触るだけならWeb版で5分、本気で使い倒すならローカル環境一択。プロンプトより「モデル選び」で9割決まる。

Stable Diffusionは、2026年現在も「カスタマイズ性で他を寄せ付けない」AI画像生成エンジンだ。MidjourneyやDALL-E 3のように完成度の高い画像が即出るタイプではなく、自分でモデルを選び、プロンプトを練り、設定を詰めていく職人ツールに近い。だからこそ、ハマる人はとことんハマる。

逆に「ボタン一発で綺麗な画像が欲しい」だけなら、正直Stable Diffusionは遠回り。この記事では、それでも使う価値がある理由と、最短で使い始める方法を全部書く。


Stable Diffusionとは何か:5分でわかる本質

Stable Diffusionとは、Stability AI社が公開しているオープンソースの画像生成AIです。テキスト(プロンプト)から画像を生成し、最大の特徴は「モデルの重みが公開されていてローカルPCで動く」こと。

他のAI画像生成ツールとの最大の違いは、APIに依存せず自分のマシンで完結できる点にある。生成枚数の制限なし、月額課金なし、生成内容の検閲もユーザー次第。これが破格。

2022年8月のv1.4公開から進化を続け、2026年現在の主力はSDXL(Stable Diffusion XL)Stable Diffusion 3.5。前者は安定性とコミュニティの厚さ、後者は最新の品質とテキスト描画能力で住み分けている。

Stable Diffusionの3つの強み

  • 完全無料:モデル本体もUIも無料。電気代だけで運用できる
  • モデル差し替え自由:実写特化、アニメ特化、3D特化など用途別モデルが何千種類も存在
  • 商用利用OK(条件付き):CreativeML OpenRAIL-Mライセンスで商用OK、ただし派生モデルの規約は要確認

逆に弱点も書いておく。導入が面倒、GPUが必要(VRAM 8GB以上推奨)、出力品質はプロンプト次第でブレる。「触ってすぐ綺麗」を求めるならSoraMeta AI系の最新ツールの方が正直楽だ。


Stable Diffusionの始め方:3つの選択肢を比較

Stable Diffusionの利用方法は大きく分けて3つあり、PCスペック・予算・用途によって最適解が変わります。

方法 初期コスト 月額 生成速度 自由度 おすすめ層
ローカル環境 GPU代(5万〜30万) 電気代のみ 速い(GPU依存) ★★★★★ 本気で使い込む人
クラウド(Colab等) 0円 1,000〜5,000円 ★★★★ スペック不足のPC勢
オンライン(Web版) 0円 0〜2,000円 遅め ★★ お試し・ライト層

結論を先に言う。今のメインPCにRTX 3060以上が載っているならローカル一択。それ以外なら、まずWeb版で感触を掴んでからクラウドへ移行するのが失敗しない順番だ。


ローカル環境での始め方:AUTOMATIC1111とForge

ローカル環境で使うなら、定番UIは「AUTOMATIC1111(A1111)」または高速化版の「Stable Diffusion WebUI Forge」の2択。2026年現在、新規ユーザーにはForgeを推す。理由はシンプルで、A1111と同じUIなのにVRAM消費が3〜5割少なく、生成も速いから。

必要スペック(2026年版)

実用的な目安はこのあたり:

  • GPU: NVIDIA製、VRAM 8GB以上(SDXLなら12GB推奨、SD3.5なら16GB欲しい)
  • メインメモリ: 16GB以上
  • ストレージ: SSD 100GB以上の空き(モデルファイルが1個6GB前後)
  • OS: Windows 10/11、macOS(M1以降)、Linux

Mac勢への補足。M1〜M4チップでも動くが、Windows+NVIDIA環境と比べて生成速度は半分以下。本気でやるならゲーミングPCを別途組むのが結局安い。

インストール手順(Windows + Forge)

ざっくりした流れはこう:

  1. Pythonをインストール(公式から3.10系を選ぶ。3.11以降は非対応のバージョンあり)
  2. Gitをインストール
  3. Forge公式リポジトリをgit clone
  4. webui-user.bat をダブルクリックで起動
  5. 初回はモデル等のダウンロードで15〜30分待つ

ブラウザでhttp://127.0.0.1:7860が開けば成功。プロンプトを入れて「Generate」を押せば、もう画像生成が始まる。


クラウド環境での始め方:Google Colab Pro

GPUが手元にないなら、Google Colab Proが現実解。月額1,179円〜で、Stable Diffusionが快適に動くGPU(T4以上)が使える。

ただし2023年以降、Googleは無料版ColabでのStable Diffusion実行を制限した。Pro以上の有料プラン必須なので注意。

Colabの実行手順

GitHubで「stable-diffusion-webui-colab」と検索すると、ワンクリックで起動できるノートブックが大量にヒットする。ノートブックを開いて、上から順にセルを実行するだけ。10分ほどで生成画面が立ち上がる。

注意点:セッションが切れると環境が消えるので、生成した画像はGoogle Driveに保存する設定を必ず入れること。これを忘れて1日分の作業が消える人を何人も見てきた。


オンライン版(Web版)での始め方:今すぐ試す3サービス

「インストール?無理。ColabもPython見たくない」という人向けに、ブラウザだけで完結するサービスもある。

代表的なのは以下の3つ:

  • DreamStudio:Stability AI公式。月額10ドルで1,000枚程度生成可能
  • Mage.space:無料枠あり、有料プランで多数のモデル使い放題
  • Clipdrop:Stability AI買収のサービス。商用OKの編集ツールも併設

入門ならMage.spaceの無料枠で十分。プロンプトを入れて待つだけ、UIも直感的。本格運用に向かないのは、生成枚数の上限と速度の制約があるから。月100枚以上生成するなら、結局ローカルかColabに移ることになる。


SDXL vs Stable Diffusion 3.5:どっちを使うべきか

2026年現在、現役の主力モデルはこの2つ。用途で選び分けるのが正解で、両方入れておくのが賢い。

項目 SDXL(1.0/Lightning) Stable Diffusion 3.5
リリース 2023年7月 2024年10月
解像度 1024×1024 1024×1024〜
テキスト描画 苦手 得意
プロンプト追従性
コミュニティモデル 圧倒的に多い 増加中
VRAM要求 8〜12GB 12〜16GB

要約すると、「カスタマイズ済みモデルで遊ぶならSDXL、最新の素の品質を求めるならSD3.5」。アニメ特化や実写特化のファインチューニング済みモデル数では、SDXLが2026年時点でもまだ圧倒的に優勢。


プロンプトの書き方:上達の最短ルート

Stable Diffusionの出力品質は、プロンプトで7割が決まる(残り3割はモデル選びとパラメータ)。コツは英語で、カンマ区切りで、重要要素を前に置くこと。

基本構造

[主題], [詳細描写], [スタイル], [品質タグ], [ライティング]

具体例で見せる:

a young japanese woman, long black hair, white blouse, 
sitting at a cafe, looking at camera, 
photorealistic, 8k uhd, cinematic lighting, bokeh background

これだけで、コーヒーショップで微笑む女性のリアル写真が生成できる。

Negative Prompt(除外指定)の重要性

Stable Diffusionの真骨頂は「Negative Prompt」にある。「これは出すな」をリストで指定できる機能で、品質が劇的に上がる。

定番のNegative Promptはこれ:

low quality, worst quality, blurry, deformed, 
extra fingers, bad anatomy, watermark, text

特に「extra fingers(指の本数おかしい)」と「bad anatomy(解剖学的におかしい)」は、入れるだけで失敗率が体感半分以下になる。

重みづけ(強調)テクニック

要素の重みは括弧で調整できる。(beautiful eyes:1.3)のように書くと、その要素が1.3倍強調される。0.8〜1.5の範囲で調整すると安定する。これはAUTOMATIC1111系UIの記法で、他のUIだと書き方が違う場合あり。


主要パラメータの設定値:迷ったらこれ

UI上の設定項目は山ほどあるが、最初に押さえるべきは4つだけ。

パラメータ 推奨値 役割
Sampling steps 20〜30 生成の試行回数。多いほど品質UPだが時間も比例
Sampling method DPM++ 2M Karras 安定して綺麗。迷ったらこれ
CFG Scale 7〜9 プロンプト忠実度。高いと指示通り、低いと自由
Seed -1(ランダム) 同じ数値で同じ画像を再現できる

最初はこの設定で固定し、プロンプトとモデルを変えて遊ぶのが一番伸びる。パラメータ沼にハマると時間が溶けるので注意。


拡張機能とLoRA:Stable Diffusionが化ける瞬間

ここからがStable Diffusionの本当の楽しさ。LoRA(Low-Rank Adaptation)は、特定のキャラクター・画風・服装などをモデルに「追加学習」させる小さなファイル(数十MB〜数百MB)。

Civitai(civitai.com)というコミュニティサイトに、世界中のユーザーが作ったLoRAが何万種類も無料公開されている。例えば「特定の絵柄」「特定のポーズ」「特定の照明スタイル」などをワンクリックで適用可能。

押さえておきたい拡張機能3選

  • ControlNet:ポーズ・構図・線画を入力画像で指定できる。これなしでは戻れない
  • ADetailer:顔や手を自動で高解像度修正。崩れがちな部位が劇的改善
  • Regional Prompter:画像の領域ごとに違うプロンプトを当てられる

ControlNetが特に革命的で、棒人間を描けば同じポーズの人物画像が生成できる。商用イラスト制作の現場でAI OCRツールと並んで「これがないと仕事にならない」と言われるレベルのインフラ化が進んでいる。


商用利用の可否:グレーゾーンを正しく理解する

Stable Diffusion本体(Stability AI公式モデル)は、CreativeML OpenRAIL-Mライセンスで商用利用OK。これは公式に明言されている。

ただし、ややこしいのは派生モデル・LoRA・Civitaiの素材。それぞれ独自のライセンスを持つ場合があり、

  • 「商用OK」
  • 「個人利用のみ」
  • 「クレジット表記必須」
  • 「特定キャラクター学習モデルは権利者承諾が必要」

など条件が分かれている。Civitaiは各モデルページに利用条件アイコンが並んでいるので、ダウンロード前に必ず確認すること。

実写系で他人の顔を学習させたモデルは、肖像権・パブリシティ権で完全アウトのケースが多い。アニメキャラのLoRAも、商用利用は二次創作としてグレーゾーン。「無料だから何でもOK」ではない点だけは絶対に覚えておきたい。


他AI画像生成ツールとの比較:いつStable Diffusionを選ぶべきか

「結局MidjourneyやDALL-Eと比べてどう?」という疑問への答えを、率直にまとめる。

ツール 強み 弱み 月額目安
Stable Diffusion 自由度・無料・モデル豊富 導入面倒・品質はプロンプト次第 0円〜
Midjourney 即・綺麗・芸術性 細かい制御不可・有料必須 約1,500円〜
DALL-E 3 自然言語で意図を理解 スタイルの一貫性弱い ChatGPT Plus内
Adobe Firefly 商用安全・Photoshop連携 表現力が控えめ Adobe CC内

選び方の指針はシンプル:

  • 量産・カスタマイズ重視: Stable Diffusion
  • 手軽に映える絵が欲しい: Midjourney
  • 企画書やブログのアイキャッチ: DALL-E 3 or Firefly

ちなみに翻訳作業を絡めるならDeepLを併用してプロンプトを英訳すると、品質が地味に上がる。ノンネイティブが直接英語プロンプト書くより、日本語→DeepL→微調整の方が安定する。


編集部の利用レポート:3ヶ月使い倒した正直な感想

正直に言う。Stable Diffusionは「楽しい」けれど「楽」ではない。

導入から1週間は、UIの設定とモデル探しで終わる。最初の1ヶ月は、思った絵が出なくてイライラする。でも2ヶ月目あたりから、自分のプロンプトの引き出しが増え、お気に入りモデルとLoRAの組み合わせが固まってくると、急に楽しくなる。

編集部では現在、以下の用途で常用中:

  • 記事のサムネイル画像生成(実写系SDXLモデル)
  • SNS投稿のイメージカット
  • プロトタイプのUI素材

逆に「ピンポイントでこの構図、この表情の人物」みたいな指定は、ControlNetを使ってもまだ難しい。完全に意図通りに出すなら、最後はPhotoshopでの加工が必要になる。

それから、思った以上に電気代がかかる点は警告しておく。RTX 4080をフル稼働させると、1日中生成し続けた場合、月の電気代が3,000〜5,000円増えた。クラウド型のAutoGPTのようなエージェント系ツールと組み合わせて自動運用するなら、Colab Proの方がトータル安い場合もある。


よくある質問(FAQ)

Q. Stable Diffusionの利用は完全無料ですか?

モデル本体・主要UI(AUTOMATIC1111、Forge)は完全無料です。ただしローカル実行にはGPU搭載PCが必要で、初期投資として5万〜30万円のハードウェア費用がかかります。クラウド版(Colab Pro等)を使う場合は月額1,000〜5,000円程度。Web版(DreamStudio等)は月額10ドル前後の有料プランが現実的です。

Q. 商用利用してもライセンス違反になりませんか?

Stability AI公式モデルはCreativeML OpenRAIL-Mライセンスで商用利用が許可されています。ただし、Civitai等で公開されているコミュニティ製モデル・LoRAは個別のライセンスがあり、商用NGや条件付き利用のものも多数。実在する人物の顔学習モデルや特定キャラクター学習LoRAは、肖像権・著作権の観点でビジネス利用は推奨しません。

Q. PCスペックが足りない場合、何から始めればいいですか?

Mage.spaceなどの無料Webサービスでまずプロンプトに慣れることをお勧めします。1〜2週間使って自分に合うと感じたら、Google Colab Pro(月額1,179円〜)に移行。本格的に量産するフェーズになってから、RTX 3060(約4万円)以上のGPU購入を検討すれば失敗しません。

Q. SDXLとStable Diffusion 3.5、初心者はどちらを選ぶべきですか?

初心者にはSDXLを推します。理由はコミュニティモデル・LoRA・チュートリアルの数が圧倒的に多く、トラブル時の情報が見つけやすいから。SD3.5は最新で素の品質は高いですが、対応するLoRAやワークフロー情報がまだ少なく、上級者向けの選択肢です。

Q. プロンプトは英語と日本語どちらで書くべきですか?

英語が圧倒的に有利です。Stable Diffusionの学習データの多くが英語キャプション付きの画像であるため、英語プロンプトの方が意図が伝わりやすく品質が安定します。英語が苦手な場合は、日本語で書いた内容をDeepLで英訳してから使うと十分実用的です。


Stable Diffusionは、AI画像生成の「自由度MAX」を体験できる唯一のツール。導入のハードルさえ乗り越えれば、月数千枚の画像を電気代だけで生成できる環境が手に入る。ハマる人には人生変わるツールなので、ぜひ一度ローカル環境で触ってみてほしい。