
【2026年最新】AI画像 プロンプト コツ|失敗しない11の型と実例
Key Takeaway: AI画像プロンプトのコツは「中央値から外す技術」。被写体・スタイル・構図・光・質感・除外の6要素で分解し、アスペクト比を最初に決め、ネガティブプロンプトで地雷を踏み抜く。これだけで生成成功率は3倍違う。
「猫の絵を描いて」と頼んで返ってくるのは、世界中の猫画像の平均値だ。退屈で当然。プロンプトのコツとは、結局のところ設計図を書く技術である。AI画像 プロンプト コツの本質は、モデルに考えさせないことに尽きる。
主要モデルは2026年時点で3系統。OpenAIのDALL-E系、GoogleのNano Banana系、Midjourneyだ。それぞれ得意領域も癖も違う。ただし、根っこの原則は共通している。本記事では、現場で実際に効く11の型を順に潰していく。
AI画像プロンプトとは|「説明文」ではなく「設計図」
AI画像プロンプトとは、画像生成AIに対する指示文のことです。ただし、日常会話の延長で書くと中央値しか返ってこない。プロンプトエンジニアリングの観点では、被写体の属性・環境・撮影条件をパラメータとして列挙する設計図に近い。
DALL-EやNano Banana Proのように、曖昧な日本語でも善戦するモデルは増えた。それでも、再現性・編集性・商用利用に耐える絵を出すには、設計図として書く意識が必要になる。
ありがちな失敗は5つある。
- 曖昧な指示で一般的な出力に着地する
- モダリティの違いを無視する(テキストプロンプトと画像プロンプトは別物)
- プラットフォームごとの構文差を無視する
- なぜ失敗したか考えずに盲目的にイテレーションする
- ネガティブプロンプトを使わない
このうち最後の2つが圧倒的に多い。失敗したら原因を分解して直す。これが地味に効く。
コツ1: 6要素で分解する|被写体・スタイル・構図・光・質感・除外
プロンプトを書く前に、頭の中でこの6項目を埋める。これだけで出力の質が一段変わる。
| 要素 | 内容 | 例 |
|---|---|---|
| 被写体 | 誰が・何が・何をしているか | 30代女性、横顔、コーヒーを飲んでいる |
| スタイル | アート様式・画風 | シネマティック、水彩、3Dレンダリング |
| 構図 | カメラ位置・画角 | バストアップ、俯瞰、広角 |
| 光 | 光源・時間帯 | 朝の柔らかい逆光、ネオンの反射光 |
| 質感 | 表面・素材感 | フィルム粒子、ガラスの反射、布の織り |
| 除外 | ネガティブ要素 | 文字なし、人物の歪みなし、過度な彩度なし |
この6要素を埋めずに書いたプロンプトは、ほぼ確実に「中央値の絵」になる。逆に言えば、6要素が埋まっていれば中央値からは確実に外れる。
設計図として書く感覚は、コードを書く時の関数定義に近い。引数を漏らすとバグるのと同じだ。
コツ2: 語順は「重要度順」|先頭ほど強く効く
主要モデルは、プロンプトの先頭にあるトークンほど重く重み付けする。これは Midjourney でも DALL-E でも共通する性質だ。
悪い例:「夕焼けの海辺で、ギターを弾く男性、シネマティック、35mmフィルム風」 良い例:「シネマティックな35mmフィルム写真、ギターを弾く男性、夕焼けの海辺」
スタイルや質感を最初に置くと、絵全体のトーンが安定する。被写体を先に置くと、被写体は強くなるがトーンがブレる。何を主役にしたいかで語順を入れ替える。
地味だが効果は大きい。同じ単語でも順番が違うだけで仕上がりが変わるのは、最初は気持ち悪い。慣れるとこれを使って絵をコントロールできる。
コツ3: アスペクト比は最初に決める|後から変えると構図が崩れる
縦長か横長かで、AIが採用する構図はガラッと変わる。9:16の縦長で「集合写真」を頼むと無理が出るし、16:9で「スマホ画面のスクショ風」を頼んでも違和感が出る。
主要ツールのアスペクト比指定方法はこうだ。
| ツール | 指定方法 | 例 |
|---|---|---|
| Midjourney | --ar パラメータ |
--ar 16:9 |
| DALL-E | プロンプト内で指定 | wide aspect ratio |
| Nano Banana | UIまたはチャット内指示 | 「16:9で生成して」 |
| Stable Diffusion | width/height数値 | 1920×1080 |
アスペクト比を後から変えるとAIは構図を組み直すため、最初に決めたイメージから外れる。最初の一手で確定させる。これが鉄則。
コツ4: ネガティブプロンプトで地雷を踏み抜く
「何を出すか」と同じくらい、「何を出さないか」の指定が効く。特に人物・テキスト・解剖学的な歪みは、明示的に除外しないと頻発する。
ネガティブプロンプトの定番セットは以下。
low quality, blurry, distorted, deformedextra fingers, extra limbs, malformed handstext, watermark, signature, logooversaturated, oversharpened
Stable Diffusion 系では negative prompt フィールドに直接入れる。Midjourney では --no パラメータを使う(例: --no text, watermark)。DALL-E はネガティブ専用フィールドがないので、本文に「without text, no watermark」と書く。
人物の手指の崩れは、これで7割は減る。残りの3割はガチャを回す。
コツ5: 数値で具体化する|「美しい」は禁句
「美しい女性」「綺麗な風景」のような形容詞は、AIにとってノイズに近い。数値・固有名詞・カメラ用語に置き換えると劇的に精度が上がる。
| 曖昧な指示 | 数値・固有名詞で置き換え |
|---|---|
| 美しい女性 | 28歳、東アジア系、165cm、ボブカット |
| 綺麗な風景 | 北欧の湖、午前6時、霧、針葉樹林 |
| かっこいい構図 | ローアングル、35mm広角、被写界深度浅め |
| 良い光 | 西日、ゴールデンアワー、F1.8の逆光 |
カメラ用語(35mm、F1.8、ISO感度)は強く効く。これは画像生成AIが学習データに含む写真メタデータの影響だ。
「綺麗」と書くより「シャネルの広告写真風」の方が10倍伝わる。固有名詞は便利だが、商用利用時は権利関係に注意。
コツ6: スタイル参照は「作家名 + メディア」が最強
スタイル指定で迷ったら、作家名と媒体を組み合わせる。これだけで方向性が一発で決まる。
例:
in the style of Wes Anderson, 35mm film, symmetrical compositionStudio Ghibli illustration, watercolor texture, soft pastelAnnie Leibovitz portrait, dramatic lighting, magazine cover1980s anime cel animation, hand-drawn linework
ただし、現役作家・特定アニメスタジオの名前は、規約や倫理的にグレーな場合がある。商用利用するなら「シネマティック」「水彩」「セルアニメ風」のような一般名詞に切り替える。
逆に個人の練習やコンセプトワークなら、作家名指定は破格に効く。最短で狙いの絵に到達する。
コツ7: 反復生成は「変数を1つだけ動かす」
AI画像 プロンプト コツの中で最も軽視されるのが、イテレーションの設計だ。失敗したら全部書き換える人が多い。これは最悪のやり方。
良いイテレーションは、変数を1つだけ動かす。
- ベースプロンプトを固定する
- 「光だけ変える」「被写体の年齢だけ変える」「アスペクト比だけ変える」
- どの変更が効いたかを記録する
これを「ワンチェンジ・ワンテスト」と呼ぶ。プロンプトエンジニアリングの基本動作だ。一度に複数変えると、何が効いたか分からなくなる。
科学実験と同じ。再現性のないプロンプトは、二度と同じ絵を出せない。
コツ8: シード値とパラメータを記録する
良い絵が出たら、プロンプトだけでなくシード値も保存する。シードは乱数の初期値で、同じプロンプト + 同じシードならほぼ同じ絵が再生成できる。
主要ツールのシード扱いは以下。
| ツール | シード指定 |
|---|---|
| Midjourney | --seed 1234567 |
| Stable Diffusion | seed フィールド直接指定 |
| DALL-E | gen_id でバリエーション生成可能 |
| Nano Banana | 直接指定不可、UIで「似た絵を生成」 |
シードと一緒にステップ数・CFGスケール・サンプラーも記録する。Notionでもスプレッドシートでもいい。これがあるかないかで、後から微調整できる範囲がまるで違う。
コツ9: 多言語ハック|英語と日本語を混ぜる
日本語特有の概念(侘び寂び、間、和)は、日本語のまま入れた方が伝わる。逆に、技術的な用語(ボケ、被写界深度、ホワイトバランス)は英語の方がモデルの学習データに豊富にある。
実例:
wabi-sabi aesthetic, weathered wood, 侘び寂び, low contrast, muted earth toneskintsugi pottery, gold lacquer cracks, 金継ぎ, museum lighting
主要モデルはマルチリンガル対応が進んでいる。混ぜて投げて、効いた方を残す。これも実験的にやる。
ちなみに、Meta AI完全ガイドで扱ったLlamaベースの画像モデルも、同様の多言語ハックが効く。原則はモデル横断で普遍的だ。
コツ10: モデル別の癖を覚える|DALL-E・Midjourney・Nano Banana
主要3モデルの癖を頭に入れておくと、ツール選びで迷わない。
| モデル | 得意 | 苦手 | プロンプトの癖 |
|---|---|---|---|
| DALL-E | 自然言語の解釈、文字入り画像 | 写真のリアリティ | 文章で書ける、長文OK |
| Midjourney | 美しい絵、アート性 | 指示への忠実性 | 単語列挙型、パラメータ豊富 |
| Nano Banana Pro | 編集性、商用品質 | 過激な表現 | 日本語OK、対話で詰める |
| Stable Diffusion | カスタマイズ性 | 学習コスト | LoRA・ControlNet前提 |
DALL-E は文章で書く。Midjourney は単語をカンマで並べる。Nano Banana は対話で詰める。Stable Diffusion は重みづけ記号 (word:1.3) を使う。それぞれ最適な書き方が違う。
同じプロンプトを4モデルに投げて比較するのが、一番早い理解の仕方。動画生成のSoraガイドでも同じ話をしている。モダリティが変わってもこの構造は不変。
コツ11: 著作権と商用利用の地雷を避ける
商用案件で使うなら、プロンプトの段階で地雷を回避する。後から差し替えるとコストが膨らむ。
避けるべき指定:
- 現役アーティスト名(特に存命中の写真家・イラストレーター)
- 特定キャラクター名(ディズニー・ジブリ・ポケモン等)
- 商標化されたブランド名・ロゴ
- 実在の有名人の顔
代替策は、属性で記述すること。「スタジオジブリ風」ではなく「手描き水彩、温かみのあるパステル、自然描写重視」と書く。スタイルは真似できるが、固有名詞は権利侵害のリスクが残る。
業務利用なら、各ツールの商用利用規約を確認する。Midjourney は有料プラン必須、DALL-E は基本商用OK、Nano Banana は契約形態次第。詳しくはAI OCRツールガイドで扱った業務利用の整理基準が応用できる。
実例|同じテーマを4パターンで生成する
「カフェで本を読む女性」を4段階で詰める実例を見る。
レベル1(中央値):
カフェで本を読む女性
レベル2(6要素分解):
30代女性、ボブカット、窓際のカフェ、ハードカバーの本、午後の自然光、35mmフィルム、被写界深度浅め
レベル3(スタイル参照追加):
Wes Anderson風、シンメトリ構図、30代女性、ボブカット、窓際のカフェ、ハードカバーの本、午後の自然光、35mmフィルム、F1.8、パステルトーン
レベル4(ネガティブプロンプト追加):
Wes Anderson風、シンメトリ構図、30代女性、ボブカット、窓際のカフェ、ハードカバーの本、午後の自然光、35mmフィルム、F1.8、パステルトーン --no text, watermark, distorted hands, oversaturated --ar 3:2
レベル1とレベル4の出力は別物だ。やってることは6要素 + スタイル + ネガティブ + アスペクト比、それだけ。シンプルに見えるが、ここまで詰めて初めて再現性のあるプロンプトになる。
自動化を組むなら、AutoGPT完全ガイドで扱ったエージェント型ワークフローと組み合わせると、プロンプト生成自体を自動化できる。さらに踏み込んだ応用は最新AIツール総合ガイドで整理している。
編集部の利用レポート|実際にやって分かった3つのこと
実務で1ヶ月ほど11の型を試した結果を率直に書く。
1. 6要素分解は最初は面倒、慣れると速い。 最初の1週間は1枚のプロンプトに10分かかった。3週目以降は2分。型が頭に入ると、考える時間が減る。
2. ネガティブプロンプトの効果は破格。 手指の崩れと文字混入は、ネガティブプロンプトで7割減った。これを知らない時の歩留まりに戻りたくない。
3. シード記録は地味に効く。 クライアント案件で「あの絵をベースに別パターン」と言われた時、シードを保存していると一発で対応できる。保存していないと、似た絵を作るために30分溶ける。
正直イマイチだったのは、作家名指定の運用。商用案件では結局使えないので、属性記述に切り替えた。練習用としては今でも便利。
よくある質問(FAQ)
Q. プロンプトは英語と日本語、どちらが良い?
主要モデルはマルチリンガル対応が進んでいるが、技術用語(被写界深度・カメラ機種名・スタイル名)は英語の方が学習データが豊富で精度が出やすい。日本語特有の概念(侘び寂び・間)は日本語のまま入れる。混在させるのが2026年時点の現実解。
Q. ネガティブプロンプトを使えないモデルではどうする?
DALL-E のようにネガティブ専用フィールドがないモデルでは、本文中に without text, no watermark, no extra fingers のように「no」「without」を使って明示的に除外指定する。効果は専用フィールドより弱いが、書かないよりは確実に効く。
Q. 同じプロンプトでも毎回違う絵が出るのはなぜ?
画像生成AIは内部で乱数を使うため、シード値が異なれば出力も変わる。再現性が必要なら、シード値を固定する。Midjourneyは--seed、Stable Diffusionはseedフィールドで指定可能。DALL-EやNano Bananaは直接指定できないため、生成IDを記録して「似た絵を生成」機能を使う。
Q. 商用利用で安全なプロンプトの書き方は?
現役アーティスト名・特定キャラクター名・実在の有名人の顔・商標化されたブランド名は避ける。代わりに「シネマティック」「水彩」「セルアニメ風」のような一般名詞 + 属性記述で書く。各ツールの商用利用規約も契約前に必ず確認する。Midjourneyは有料プラン必須、DALL-Eは基本商用OK。
Q. プロンプトが長すぎると逆効果になる?
モデルによって有効なトークン数の上限が異なる。Midjourneyは概ね60-80トークン、DALL-Eは長文OK、Stable Diffusionは75トークンを超えると後半の重みが落ちる。100単語を超えるプロンプトは、優先度の低い要素を削ぎ落とした方が結果が良いことが多い。詰め込みすぎは禁物。
