【2026年最新】AI画像 プロンプト コツ|失敗しない11の型と実例

【2026年最新】AI画像 プロンプト コツ|失敗しない11の型と実例

Key Takeaway: AI画像プロンプトのコツは「中央値から外す技術」。被写体・スタイル・構図・光・質感・除外の6要素で分解し、アスペクト比を最初に決め、ネガティブプロンプトで地雷を踏み抜く。これだけで生成成功率は3倍違う。

「猫の絵を描いて」と頼んで返ってくるのは、世界中の猫画像の平均値だ。退屈で当然。プロンプトのコツとは、結局のところ設計図を書く技術である。AI画像 プロンプト コツの本質は、モデルに考えさせないことに尽きる。

主要モデルは2026年時点で3系統。OpenAIのDALL-E系、GoogleのNano Banana系、Midjourneyだ。それぞれ得意領域も癖も違う。ただし、根っこの原則は共通している。本記事では、現場で実際に効く11の型を順に潰していく。


AI画像プロンプトとは|「説明文」ではなく「設計図」

AI画像プロンプトとは、画像生成AIに対する指示文のことです。ただし、日常会話の延長で書くと中央値しか返ってこない。プロンプトエンジニアリングの観点では、被写体の属性・環境・撮影条件をパラメータとして列挙する設計図に近い。

DALL-EやNano Banana Proのように、曖昧な日本語でも善戦するモデルは増えた。それでも、再現性・編集性・商用利用に耐える絵を出すには、設計図として書く意識が必要になる。

ありがちな失敗は5つある。

  • 曖昧な指示で一般的な出力に着地する
  • モダリティの違いを無視する(テキストプロンプトと画像プロンプトは別物)
  • プラットフォームごとの構文差を無視する
  • なぜ失敗したか考えずに盲目的にイテレーションする
  • ネガティブプロンプトを使わない

このうち最後の2つが圧倒的に多い。失敗したら原因を分解して直す。これが地味に効く。


コツ1: 6要素で分解する|被写体・スタイル・構図・光・質感・除外

プロンプトを書く前に、頭の中でこの6項目を埋める。これだけで出力の質が一段変わる。

要素 内容
被写体 誰が・何が・何をしているか 30代女性、横顔、コーヒーを飲んでいる
スタイル アート様式・画風 シネマティック、水彩、3Dレンダリング
構図 カメラ位置・画角 バストアップ、俯瞰、広角
光源・時間帯 朝の柔らかい逆光、ネオンの反射光
質感 表面・素材感 フィルム粒子、ガラスの反射、布の織り
除外 ネガティブ要素 文字なし、人物の歪みなし、過度な彩度なし

この6要素を埋めずに書いたプロンプトは、ほぼ確実に「中央値の絵」になる。逆に言えば、6要素が埋まっていれば中央値からは確実に外れる。

設計図として書く感覚は、コードを書く時の関数定義に近い。引数を漏らすとバグるのと同じだ。


コツ2: 語順は「重要度順」|先頭ほど強く効く

主要モデルは、プロンプトの先頭にあるトークンほど重く重み付けする。これは Midjourney でも DALL-E でも共通する性質だ。

悪い例:「夕焼けの海辺で、ギターを弾く男性、シネマティック、35mmフィルム風」 良い例:「シネマティックな35mmフィルム写真、ギターを弾く男性、夕焼けの海辺」

スタイルや質感を最初に置くと、絵全体のトーンが安定する。被写体を先に置くと、被写体は強くなるがトーンがブレる。何を主役にしたいかで語順を入れ替える。

地味だが効果は大きい。同じ単語でも順番が違うだけで仕上がりが変わるのは、最初は気持ち悪い。慣れるとこれを使って絵をコントロールできる。


コツ3: アスペクト比は最初に決める|後から変えると構図が崩れる

縦長か横長かで、AIが採用する構図はガラッと変わる。9:16の縦長で「集合写真」を頼むと無理が出るし、16:9で「スマホ画面のスクショ風」を頼んでも違和感が出る。

主要ツールのアスペクト比指定方法はこうだ。

ツール 指定方法
Midjourney --ar パラメータ --ar 16:9
DALL-E プロンプト内で指定 wide aspect ratio
Nano Banana UIまたはチャット内指示 「16:9で生成して」
Stable Diffusion width/height数値 1920×1080

アスペクト比を後から変えるとAIは構図を組み直すため、最初に決めたイメージから外れる。最初の一手で確定させる。これが鉄則。


コツ4: ネガティブプロンプトで地雷を踏み抜く

「何を出すか」と同じくらい、「何を出さないか」の指定が効く。特に人物・テキスト・解剖学的な歪みは、明示的に除外しないと頻発する。

ネガティブプロンプトの定番セットは以下。

  • low quality, blurry, distorted, deformed
  • extra fingers, extra limbs, malformed hands
  • text, watermark, signature, logo
  • oversaturated, oversharpened

Stable Diffusion 系では negative prompt フィールドに直接入れる。Midjourney では --no パラメータを使う(例: --no text, watermark)。DALL-E はネガティブ専用フィールドがないので、本文に「without text, no watermark」と書く。

人物の手指の崩れは、これで7割は減る。残りの3割はガチャを回す。


コツ5: 数値で具体化する|「美しい」は禁句

「美しい女性」「綺麗な風景」のような形容詞は、AIにとってノイズに近い。数値・固有名詞・カメラ用語に置き換えると劇的に精度が上がる。

曖昧な指示 数値・固有名詞で置き換え
美しい女性 28歳、東アジア系、165cm、ボブカット
綺麗な風景 北欧の湖、午前6時、霧、針葉樹林
かっこいい構図 ローアングル、35mm広角、被写界深度浅め
良い光 西日、ゴールデンアワー、F1.8の逆光

カメラ用語(35mm、F1.8、ISO感度)は強く効く。これは画像生成AIが学習データに含む写真メタデータの影響だ。

「綺麗」と書くより「シャネルの広告写真風」の方が10倍伝わる。固有名詞は便利だが、商用利用時は権利関係に注意。


コツ6: スタイル参照は「作家名 + メディア」が最強

スタイル指定で迷ったら、作家名と媒体を組み合わせる。これだけで方向性が一発で決まる。

例:

  • in the style of Wes Anderson, 35mm film, symmetrical composition
  • Studio Ghibli illustration, watercolor texture, soft pastel
  • Annie Leibovitz portrait, dramatic lighting, magazine cover
  • 1980s anime cel animation, hand-drawn linework

ただし、現役作家・特定アニメスタジオの名前は、規約や倫理的にグレーな場合がある。商用利用するなら「シネマティック」「水彩」「セルアニメ風」のような一般名詞に切り替える。

逆に個人の練習やコンセプトワークなら、作家名指定は破格に効く。最短で狙いの絵に到達する。


コツ7: 反復生成は「変数を1つだけ動かす」

AI画像 プロンプト コツの中で最も軽視されるのが、イテレーションの設計だ。失敗したら全部書き換える人が多い。これは最悪のやり方。

良いイテレーションは、変数を1つだけ動かす。

  1. ベースプロンプトを固定する
  2. 「光だけ変える」「被写体の年齢だけ変える」「アスペクト比だけ変える」
  3. どの変更が効いたかを記録する

これを「ワンチェンジ・ワンテスト」と呼ぶ。プロンプトエンジニアリングの基本動作だ。一度に複数変えると、何が効いたか分からなくなる。

科学実験と同じ。再現性のないプロンプトは、二度と同じ絵を出せない。


コツ8: シード値とパラメータを記録する

良い絵が出たら、プロンプトだけでなくシード値も保存する。シードは乱数の初期値で、同じプロンプト + 同じシードならほぼ同じ絵が再生成できる。

主要ツールのシード扱いは以下。

ツール シード指定
Midjourney --seed 1234567
Stable Diffusion seed フィールド直接指定
DALL-E gen_id でバリエーション生成可能
Nano Banana 直接指定不可、UIで「似た絵を生成」

シードと一緒にステップ数・CFGスケール・サンプラーも記録する。Notionでもスプレッドシートでもいい。これがあるかないかで、後から微調整できる範囲がまるで違う。


コツ9: 多言語ハック|英語と日本語を混ぜる

日本語特有の概念(侘び寂び、間、和)は、日本語のまま入れた方が伝わる。逆に、技術的な用語(ボケ、被写界深度、ホワイトバランス)は英語の方がモデルの学習データに豊富にある。

実例:

  • wabi-sabi aesthetic, weathered wood, 侘び寂び, low contrast, muted earth tones
  • kintsugi pottery, gold lacquer cracks, 金継ぎ, museum lighting

主要モデルはマルチリンガル対応が進んでいる。混ぜて投げて、効いた方を残す。これも実験的にやる。

ちなみに、Meta AI完全ガイドで扱ったLlamaベースの画像モデルも、同様の多言語ハックが効く。原則はモデル横断で普遍的だ。


コツ10: モデル別の癖を覚える|DALL-E・Midjourney・Nano Banana

主要3モデルの癖を頭に入れておくと、ツール選びで迷わない。

モデル 得意 苦手 プロンプトの癖
DALL-E 自然言語の解釈、文字入り画像 写真のリアリティ 文章で書ける、長文OK
Midjourney 美しい絵、アート性 指示への忠実性 単語列挙型、パラメータ豊富
Nano Banana Pro 編集性、商用品質 過激な表現 日本語OK、対話で詰める
Stable Diffusion カスタマイズ性 学習コスト LoRA・ControlNet前提

DALL-E は文章で書く。Midjourney は単語をカンマで並べる。Nano Banana は対話で詰める。Stable Diffusion は重みづけ記号 (word:1.3) を使う。それぞれ最適な書き方が違う。

同じプロンプトを4モデルに投げて比較するのが、一番早い理解の仕方。動画生成のSoraガイドでも同じ話をしている。モダリティが変わってもこの構造は不変。


コツ11: 著作権と商用利用の地雷を避ける

商用案件で使うなら、プロンプトの段階で地雷を回避する。後から差し替えるとコストが膨らむ。

避けるべき指定:

  • 現役アーティスト名(特に存命中の写真家・イラストレーター)
  • 特定キャラクター名(ディズニー・ジブリ・ポケモン等)
  • 商標化されたブランド名・ロゴ
  • 実在の有名人の顔

代替策は、属性で記述すること。「スタジオジブリ風」ではなく「手描き水彩、温かみのあるパステル、自然描写重視」と書く。スタイルは真似できるが、固有名詞は権利侵害のリスクが残る。

業務利用なら、各ツールの商用利用規約を確認する。Midjourney は有料プラン必須、DALL-E は基本商用OK、Nano Banana は契約形態次第。詳しくはAI OCRツールガイドで扱った業務利用の整理基準が応用できる。


実例|同じテーマを4パターンで生成する

「カフェで本を読む女性」を4段階で詰める実例を見る。

レベル1(中央値):

カフェで本を読む女性

レベル2(6要素分解):

30代女性、ボブカット、窓際のカフェ、ハードカバーの本、午後の自然光、35mmフィルム、被写界深度浅め

レベル3(スタイル参照追加):

Wes Anderson風、シンメトリ構図、30代女性、ボブカット、窓際のカフェ、ハードカバーの本、午後の自然光、35mmフィルム、F1.8、パステルトーン

レベル4(ネガティブプロンプト追加):

Wes Anderson風、シンメトリ構図、30代女性、ボブカット、窓際のカフェ、ハードカバーの本、午後の自然光、35mmフィルム、F1.8、パステルトーン --no text, watermark, distorted hands, oversaturated --ar 3:2

レベル1とレベル4の出力は別物だ。やってることは6要素 + スタイル + ネガティブ + アスペクト比、それだけ。シンプルに見えるが、ここまで詰めて初めて再現性のあるプロンプトになる。

自動化を組むなら、AutoGPT完全ガイドで扱ったエージェント型ワークフローと組み合わせると、プロンプト生成自体を自動化できる。さらに踏み込んだ応用は最新AIツール総合ガイドで整理している。


編集部の利用レポート|実際にやって分かった3つのこと

実務で1ヶ月ほど11の型を試した結果を率直に書く。

1. 6要素分解は最初は面倒、慣れると速い。 最初の1週間は1枚のプロンプトに10分かかった。3週目以降は2分。型が頭に入ると、考える時間が減る。

2. ネガティブプロンプトの効果は破格。 手指の崩れと文字混入は、ネガティブプロンプトで7割減った。これを知らない時の歩留まりに戻りたくない。

3. シード記録は地味に効く。 クライアント案件で「あの絵をベースに別パターン」と言われた時、シードを保存していると一発で対応できる。保存していないと、似た絵を作るために30分溶ける。

正直イマイチだったのは、作家名指定の運用。商用案件では結局使えないので、属性記述に切り替えた。練習用としては今でも便利。


よくある質問(FAQ)

Q. プロンプトは英語と日本語、どちらが良い?

主要モデルはマルチリンガル対応が進んでいるが、技術用語(被写界深度・カメラ機種名・スタイル名)は英語の方が学習データが豊富で精度が出やすい。日本語特有の概念(侘び寂び・間)は日本語のまま入れる。混在させるのが2026年時点の現実解。

Q. ネガティブプロンプトを使えないモデルではどうする?

DALL-E のようにネガティブ専用フィールドがないモデルでは、本文中に without text, no watermark, no extra fingers のように「no」「without」を使って明示的に除外指定する。効果は専用フィールドより弱いが、書かないよりは確実に効く。

Q. 同じプロンプトでも毎回違う絵が出るのはなぜ?

画像生成AIは内部で乱数を使うため、シード値が異なれば出力も変わる。再現性が必要なら、シード値を固定する。Midjourneyは--seed、Stable Diffusionはseedフィールドで指定可能。DALL-EやNano Bananaは直接指定できないため、生成IDを記録して「似た絵を生成」機能を使う。

Q. 商用利用で安全なプロンプトの書き方は?

現役アーティスト名・特定キャラクター名・実在の有名人の顔・商標化されたブランド名は避ける。代わりに「シネマティック」「水彩」「セルアニメ風」のような一般名詞 + 属性記述で書く。各ツールの商用利用規約も契約前に必ず確認する。Midjourneyは有料プラン必須、DALL-Eは基本商用OK。

Q. プロンプトが長すぎると逆効果になる?

モデルによって有効なトークン数の上限が異なる。Midjourneyは概ね60-80トークン、DALL-Eは長文OK、Stable Diffusionは75トークンを超えると後半の重みが落ちる。100単語を超えるプロンプトは、優先度の低い要素を削ぎ落とした方が結果が良いことが多い。詰め込みすぎは禁物。