
【2026年最新】AI画像 プロンプト コツ完全ガイド|現場で効く7原則
Key Takeaway: AI画像のプロンプトは「日常語の説明」ではなく「構図・被写体・光・質感・スタイル・除外」の6要素を分解して並べる作業。曖昧な日常語を投げると、どのモデルでも凡庸な出力になる。逆にこの分解さえ覚えれば、Nano Banana・DALL-E・Midjourneyのどれでも8割の精度に到達できる。
AI画像生成は、2026年に入って一気に「使える」レベルに来た。Nano Banana Proの登場で写真品質はもう議論にならない。問題は出力品質ではなく、プロンプトの書き方だ。
同じツール、同じモデルでも、プロンプト次第で結果は破格に変わる。SQ Magazineの調査では、プロンプトの明確さが出力品質を35%上げ、無関係な結果を42%減らすと報告されている。1.4倍の差は、ツール選びより大きい。
この記事では、現場で使えるプロンプトのコツを7つの原則にまとめた。Midjourneyしか書いてこなかった人も、ChatGPTで遊んでいただけの人も、明日から精度が変わる。
まず押さえる:AI画像プロンプトとは何か
AI画像プロンプトとは、生成AIに画像を作らせるためのテキスト指示のことだ。日常言語の感覚で書くと精度が落ちる。理由は単純で、AIモデルは「具体的で構造化された指示」を前提に学習されているから。
「猫の絵を描いて」では、AIは無数の猫の中央値を返してくる。退屈な出力になるのは当然だ。プロンプトのコツとは、結局のところ「中央値から外す技術」と言い換えられる。
2026年時点で主要モデルは3系統ある。OpenAIのDALL-E 3、GoogleのNano Banana Pro、Midjourney v7。それぞれ得意領域が違い、プロンプトの書き方も微妙に違う。共通の原則を押さえつつ、モデル別の癖を後半で扱う。
Meta AI完全ガイドでも触れているが、Llamaベースの画像モデルもこの構造を踏襲している。原則は普遍だ。
原則1:被写体・スタイル・構図・光・質感・除外の6要素で分解する
プロンプトを書く前に、頭の中でこの6項目に分解する。これが一番効く。
| 要素 | 内容 | 例 |
|---|---|---|
| 被写体 | 何を描くか | 雨の夜の自転車に乗る人物 |
| スタイル | どんな絵柄か | 35mmフィルム写真 |
| 構図 | どう切り取るか | ローアングル、中央配置 |
| 光 | 光源と質 | ネオンの反射、湿った路面 |
| 質感 | 仕上げ | シャープフォーカス、高ディテール |
| 除外 | 入れたくない要素 | テキスト、ロゴ、人混み |
6つを書き出してから一文に組み立てる。これだけで凡庸な出力からは脱出できる。Neolemonの2026年比較レポートでも「Photoreal」のサンプルプロンプトはこの構造に従っている。
慣れたら頭の中で同時並行できるようになるが、最初は紙に書き出すのが早い。
原則2:抽象語を具体語に置き換える
「美しい」「きれい」「かっこいい」は、AI画像プロンプトでは死語だと思っていい。意味の幅が広すぎて、AIは中央値しか返せない。
具体語への置き換え例を挙げる。
- 「美しい風景」→「夕暮れの瀬戸内海、低い太陽、シルエットの島影」
- 「かっこいい男性」→「黒のレザージャケット、無精髭、横顔、低照度」
- 「おしゃれなカフェ」→「コンクリート床、真鍮の照明、植物、北欧家具」
抽象語を1つ具体語3つに分解する、というルールにすると失敗が減る。形容詞を増やすのではなく、名詞を増やす感覚だ。
原則3:参照点を入れる(作家名・年代・雑誌・映画)
AIは膨大な学習データから「参照点」を持っている。これを呼び出すのが効く。
「ウェス・アンダーソン風」「1990年代のフィルム広告」「ナショナルジオグラフィック誌の表紙」のような参照は、抽象語10個分の情報量を持つ。色味、構図、空気感までまとめて指定できるからだ。
ただし参照点には注意点が2つある。
- 存命作家の名前を直接出すと、商用利用でトラブルになる可能性がある
- モデルによっては学習対象外で効かない(DALL-Eは作家名を一部ブロックしている)
安全に使うなら「映画のジャンル」「雑誌の系統」「年代+メディア」が無難だ。「80年代のSF映画のオープニング」「Vogue風のスタジオライティング」のように。
原則4:ネガティブプロンプトで除外を明示する
ポジティブだけ書いて満足する人が多いが、除外指定が結果を一段階引き上げる。
よく使う除外項目はこのあたり。
- text, watermark, logo(テキスト・透かし)
- extra fingers, deformed hands(手の崩れ)
- low quality, blurry, jpeg artifacts(低品質・劣化)
- multiple people, crowd(意図しない複数人物)
Midjourneyでは --no パラメータ、Stable Diffusion系では Negative prompt: 欄、ChatGPT/Nano Bananaは自然文で「〜を含めないで」と書く。書式は違うが思想は同じだ。
Sora完全ガイドで扱っている動画生成でも、この除外思想はそのまま使える。
原則5:プロンプトの「順番」を意識する
多くの画像生成モデルは、プロンプトの先頭に書いた要素を強く反映する。重要度の高い要素から並べるのが鉄則。
推奨する並び順はこう。
- 主題(被写体)
- アクション・ポーズ
- 環境・背景
- ライティング
- スタイル・質感
- 技術指定(解像度・カメラ)
- 除外項目
「シャープフォーカス、35mm、夕暮れ、雨の夜の自転車に乗る男性」と書くと、技術指定が前面に来て被写体が薄まる。逆に「雨の夜、自転車に乗る男性、ネオンの反射、35mm、シャープフォーカス」だと主題が立つ。
順番だけで結果が変わるのは、慣れないと信じられないが、実際に試すとすぐ分かる。
原則6:1回で決めず、3回イテレートする前提で書く
プロンプトの90%は1発で完成しない。1回目は構造の確認、2回目で要素の調整、3回目で仕上げ、というリズムで回す。
「盲目的なイテレーション」が最も時間を溶かす。何が悪かったかを言語化せずに、なんとなくプロンプトを変えて投げ直すパターンだ。これだけはやめた方がいい。
イテレーションのコツは1回ごとに変更点を1つに絞ること。
- 1回目:基本プロンプトを投げる
- 2回目:光の指定だけを変える
- 3回目:構図の指定だけを変える
何を変えたら何が変わったか、を一つずつ確認する。地味だが、これが最短ルートだ。
原則7:モデルごとの「方言」を覚える
主要3モデルにはそれぞれ癖がある。同じプロンプトを投げても結果は違う。
| モデル | 強み | プロンプトの方言 |
|---|---|---|
| DALL-E 3 (ChatGPT) | 指示理解の精度、テキスト描画 | 自然文の長文OK、指示が細かいほど良い |
| Nano Banana Pro (Gemini) | フォトリアル、安定品質 | 簡潔・要素列挙型が効く |
| Midjourney v7 | アーティスティック、構図 | 短いキーワード羅列+パラメータ指定 |
DALL-Eに「映画のシーンのような夕暮れの東京、雨上がりの新宿、24mm広角、F2.8」と長文で書くのと、Midjourneyに Tokyo Shinjuku rainy dusk, cinematic, 24mm, f2.8 --ar 16:9 --v 7 と書くのは、効き方が違う。
この方言の違いを意識せず、同じプロンプトを使い回すと結果がバラバラになる。
失敗パターンと修正手順
よくある失敗を5つ挙げる。
- 要素を詰め込みすぎる — 被写体が3つ以上あると、どれも中途半端になる。1画像1主題が原則
- 形容詞だけで構成する — 「美しい、幻想的な、神秘的な」を並べても何も伝わらない
- 数値を入れない — 「広角」より「24mm」、「明るい」より「F2.8」のほうが効く
- 試行回数が足りない — 3回投げて駄目なら、プロンプト構造から見直す
- モデルの癖を無視する — Midjourney用プロンプトをDALL-Eに投げても本領は出ない
修正手順は順番にチェックするだけ。「1主題か→形容詞偏重か→数値あるか→3回試したか→モデル合ってるか」の順で潰していく。
実践プロンプト例:5パターン
すぐ使えるプロンプトを5つ用意した。コピペして調整するベースに。
写真リアル系
雨の夜の路上、自転車に乗る若い男性、ネオンサインの赤と青の反射、湿った路面、35mmフィルム、シャープフォーカス、被写界深度浅め、低照度
イラスト系
図書館を探検する好奇心旺盛な猫、子供向け絵本のスタイル、柔らかな光、クリーンな線画、優しい陰影、暖色系
ポスター系
ミニマルな映画ポスター、中央に1本の傘、上半分は雨、下半分は晴れ、サンセリフ体、余白多め
プロダクト系
白背景、真鍮の万年筆、斜め45度、商業写真、影は柔らかく、反射は控えめ、4Kディテール
コンセプトアート系
廃墟になった東京の高層ビル群、植物に覆われた表参道、夕暮れ、80年代SF映画の質感、24mm広角
それぞれ、被写体→環境→光→技術指定の順で並べてある。最初のテンプレとして使ってほしい。
ChatGPT/Geminiでプロンプトを「書かせる」コツ
最近のトレンドは、プロンプトをAIに書かせること。ChatGPT PlusやGeminiに「次のシーンを画像生成するための英語プロンプトを作って」と頼むと、構造化された指示が返ってくる。
これが地味に強い。人間が書くより構成要素を漏らさないからだ。AI OCRツール完全ガイドで扱っているような、文書からビジュアル化する用途でも有効。
頼み方のテンプレートはこう。
次のシーンを画像生成するためのプロンプトを英語で書いて。被写体、構図、光、質感、スタイル、除外要素の順で構造化して。シーン:[ここに日本語で大まかな説明]
これだけで使えるプロンプトが出てくる。出てきたプロンプトをそのままMidjourneyやNano Bananaに投げればいい。
業務利用で注意すべき3点
商用利用やクライアントワークで使う場合、プロンプト以外で気をつける点がある。
- 著作権・肖像権 — 実在の人物名、ブランド名、特定キャラクターは原則NG
- 生成物の権利 — モデルごとに商用可否と権利帰属が違う。Adobe Fireflyは比較的安全、Midjourneyは有料プラン以上で商用OK
- AI生成の表示義務 — 業界・媒体によってはAI生成であることの明示が求められる
AutoGPT完全ガイドで扱っているような自律型AIで画像を量産する場合は、特に権利チェックを自動化に組み込んでおきたい。
編集部の利用レポート:3週間で1,000枚生成して分かったこと
実際にこの7原則を使って、編集部で3週間1,000枚ほど生成してみた。正直な感想を書く。
一番効いたのは原則1の6要素分解。最初は面倒だったが、3日で身に付いた。身に付くと頭の中で同時並行できるので、結果的に時短になる。
意外と効かなかったのは作家名の参照。DALL-Eではブロックされ、Midjourneyでも v7 になって以前ほど効かなくなった印象。代わりに「映画ジャンル+年代」のほうが安定する。
モデル別では、フォトリアル用途はNano Banana Pro一択になった。同じプロンプトでも肌や布の質感が違う。アート系はMidjourney、テキストやUI系はDALL-Eと使い分けている。
正直イマイチだったのは、自然文長文型のプロンプトをMidjourneyに投げる戦略。v7になっても、やはりキーワード羅列型のほうが安定する。モデルの方言を無視するとこうなる、という典型例だった。
関連記事もまとめているので、合わせて読むと体系的に理解できる。
よくある質問(FAQ)
Q. プロンプトは日本語と英語、どちらで書くべきですか?
英語が圧倒的に有利。学習データの大半が英語のため、ニュアンスが正確に伝わる。日本語でも動くが、品質に2割くらい差が出る印象。日本語で考えてDeepLやChatGPTで英訳する流れが現実的。
Q. プロンプトの長さはどのくらいが適切ですか?
モデルによる。DALL-Eは長文(200〜400語)が効く。Midjourneyは短文(30〜60語)+パラメータが定石。Nano Banana Proは中間で、80〜150語前後がバランス良い。長ければ良いわけではなく、要素の密度が大事。
Q. ネガティブプロンプトはどこまで書くべきですか?
最低限「text, watermark, low quality」の3つは入れておくと品質が安定する。人物画像なら「extra fingers, deformed hands」を追加。やりすぎると本来出てほしい要素まで消えるので、5〜8項目以内が目安。
Q. 同じプロンプトで何度も生成しても同じ結果にならないのはなぜですか?
シード値(乱数)が変わるため。同じ結果を再現したい場合は、Midjourneyなら --seed パラメータ、Stable Diffusion系ならSeed指定で固定できる。DALL-EやNano Banana Proは現状シード固定が公式には用意されていない。
Q. プロンプトのテンプレートを集めたサイトはどこがおすすめですか?
PromptHero、Lexica、Civitaiの3つが定番。実際に生成された画像とプロンプトがセットで見られるので、リバースエンジニアリングしながら学べる。日本語環境なら「Nano Banana プロンプト集」のようなまとめ資料も増えてきた。
まとめ:原則は普遍、方言は学習で身に付く
AI画像のプロンプトのコツは、突き詰めると「6要素に分解して構造化する」「モデルごとの方言を覚える」「3回イテレートする前提で書く」の3点に集約される。残りは応用と慣れだ。
2026年時点で、プロンプトの良し悪しは生産性に直結する。1枚あたり10秒短縮できれば、1,000枚で2.7時間。地味だが効く差だ。
最初の1週間は意識的に7原則をチェックしながら書く。1ヶ月で無意識に組み立てられるようになる。そこまで来れば、ツール選びより自分のスキルが効くフェーズに入る。
