
【2026年最新】AI画像 プロンプト コツ|失敗しない11の型と実例
Key Takeaway: AI画像のプロンプトは「主題→スタイル→構図→ライティング→品質指定」の順で組むと再現性が跳ね上がる。日本語より英語、形容詞より名詞、長文より構造化。この3原則を押さえれば、Nano BananaでもMidjourneyでもDALL-Eでも狙い通りの絵が出る。
AI画像生成で「思った絵が出ない」のは、ツールの問題じゃない。99%プロンプトの書き方の問題だ。実際、同じMidjourneyでも、適当な日本語で投げる人と構造化された英語プロンプトを投げる人では、出力品質が雲泥の差になる。
この差を埋めるのは才能じゃなく、型だ。海外のAIアーティストが当たり前のように使っている「プロンプトの構造」を知れば、初日から及第点の絵が出る。
本記事では、Nano Banana、Midjourney、DALL-E、Stable Diffusionを横断して使える11の実用テクニックを、実例とともに整理した。プロンプトエンジニアリングの基礎から、商用利用に耐える画像生成テクニックまで、現場で使える知識だけを詰め込んでいる。
AI画像プロンプトとは何か|「呪文」ではなく「設計図」
AI画像プロンプトとは、生成AIに対して「どんな画像を作ってほしいか」を言語で指示する文章のことだ。よく「呪文」と呼ばれるが、実態は呪文より建築図面に近い。曖昧な指示からは曖昧な絵しか出ない。
2026年現在、Nano Banana ProやMidjourney V7、DALL-E 3といった主要モデルは、自然言語をかなり高い精度で理解する。それでも「カフェで本を読む女性」だけだと、毎回違うテイストの画像が出る。これはAIが悪いのではなく、指示が抽象的すぎるからだ。
良いプロンプトは、画家にデザインを発注する感覚で書く。誰が、どこで、何を、どんな雰囲気で、どんな画風で——この5要素を具体化するだけで、出力は劇的に安定する。
コツ1: 主題を最初に置く|AIは「文頭」を最重視する
AI画像生成モデルは、プロンプトの先頭に書かれた要素を最も強く反映する。後ろに行くほど影響度は下がる。これはほぼ全モデルに共通する性質だ。
たとえば「sunset, beach, woman walking」と「woman walking, beach, sunset」では、生成される画像の主役が変わる。前者は夕日の風景写真、後者は人物中心の写真になりやすい。
主題が人物なら人物名詞を、風景なら風景名詞を文頭に置く。「何を撮りたいか」を最初の3単語で決めきるのが鉄則だ。
| 悪い例 | 良い例 |
|---|---|
| beautiful, sunset, ocean, woman | woman in white dress, walking on beach, sunset |
| 4k, cinematic, cat, garden | black cat sitting in garden, cinematic lighting, 4k |
主題が明確になるだけで、ガチャ感が半分以下になる。これだけは今日から徹底してほしい。
コツ2: 「主題→スタイル→構図→ライティング→品質」の5層構造
熟練ユーザーが共通して使っているのが、この5層構造だ。要素を順番に積んでいくだけで、プロのプロンプトに近づく。
各層の役割は明確に分かれている。まずは型通りに書いて、慣れてきたら順番を入れ替える。
| 層 | 役割 | 記述例 |
|---|---|---|
| 主題 | 何を描くか | a young woman with long black hair |
| スタイル | 画風・タッチ | photorealistic, shot on Sony A7IV |
| 構図 | カメラアングル・距離 | medium shot, rule of thirds |
| ライティング | 光の演出 | golden hour, soft side lighting |
| 品質 | 解像度・ディテール | hyper detailed, 8k, sharp focus |
この5層を意識すると、プロンプトが「単語の羅列」から「設計書」に変わる。MidjourneyでもStable Diffusionでも効くので、最初に身につけるべき型だ。
コツ3: 形容詞より名詞を盛れ|「beautiful」は最弱ワード
「beautiful」「amazing」「stunning」のような抽象的な形容詞は、ほとんど意味を持たない。AIが解釈に困る単語の代表格だ。
代わりに、具体的な名詞や固有名詞を入れる。「beautiful lighting」より「Rembrandt lighting」、「stunning view」より「panoramic view of Mount Fuji at dawn」のほうが、圧倒的に再現性が高い。
固有名詞は強い。写真家名(Annie Leibovitz、Steve McCurry)、画家名(Studio Ghibli、Greg Rutkowski)、レンズ名(85mm f/1.4)、カメラ機種(Hasselblad H6D)を入れると、テイストが一発で決まる。
ただし著作権配慮で、現役アーティスト名の使用が制限されているモデルもある。商用利用前は規約を確認してほしい。
コツ4: ネガティブプロンプトで「描かないもの」を指定
Stable DiffusionやMidjourney(--no パラメータ)では、ネガティブプロンプトが使える。これは「描いてほしくない要素」をリストアップする機能で、品質を底上げする最短ルートだ。
定番のネガティブプロンプトは以下。コピペして使い回せる。
- 人物:
deformed hands, extra fingers, blurry face, bad anatomy - 風景:
text, watermark, logo, low quality, jpeg artifacts - イラスト:
lowres, error, cropped, worst quality, normal quality
ネガティブプロンプトを入れるだけで、手の崩れや謎のテキスト混入が激減する。Stable Diffusion系を使うなら必須テクニックだ。
なお、DALL-E 3やNano Bananaにはネガティブプロンプト機能がないので、肯定形で「clean, no text, sharp anatomy」のように書き換える必要がある。
コツ5: アスペクト比は最初に決める|後から変えると構図が崩れる
縦長か横長かで、AIが採用する構図はガラッと変わる。9:16の縦長で「集合写真」を頼むと無理が出るし、16:9で「スマホ画面のスクショ風」を頼んでも違和感が出る。
主要ツールのアスペクト比指定方法は以下。
| ツール | 指定方法 | 例 |
|---|---|---|
| Midjourney | --ar パラメータ |
--ar 16:9 |
| DALL-E 3 | プロンプト内で指定 | wide aspect ratio |
| Nano Banana | UIまたは「16:9で生成して」 | チャット内指示 |
| Stable Diffusion | width/height数値 | 1920×1080 |
用途に合わせたアスペクト比を最初に決めておくと、後の修正コストが激減する。SNS投稿なら1:1か4:5、サムネイルなら16:9、ストーリーズなら9:16が定番だ。
画像生成AIの選び方についてはMeta AIの完全ガイドでもツール別比較を扱っているので、用途別に使い分けたい人は参照してほしい。
コツ6: ライティング指定で「素人っぽさ」を消す
プロの写真とアマチュア写真の差は、ライティングで決まる。AI画像も同じで、光の指定があるだけで一気に仕上がりが「商業写真」になる。
覚えておきたいライティング用語は以下の通り。
golden hour— 朝夕の柔らかい黄金光(最も外しにくい)Rembrandt lighting— 顔の片側に三角形の光が当たる古典的ポートレート照明cinematic lighting— 映画のような陰影の強い光softbox lighting— スタジオ撮影の柔らかい均一光
「golden hour, soft shadows」を入れるだけで、Instagram映えする雰囲気写真がほぼ確実に出る。困ったらgolden hourを入れておけ、というのが現場の合言葉になっている。
コツ7: カメラ用語で構図を制御する
「アップで撮って」「引きで」を英語のカメラ用語で指定すると、構図の精度が劇的に上がる。これは人物写真で特に効く。
| 日本語 | 英語プロンプト | 用途 |
|---|---|---|
| 全身 | full body shot | ファッション・キャラ紹介 |
| 上半身 | medium shot, waist up | プロフィール写真 |
| 顔アップ | close-up portrait | 表情重視 |
| 超アップ | extreme close-up | 目・唇など部分強調 |
| 俯瞰 | bird's eye view, top down | 料理・地図 |
| ローアングル | low angle shot | 迫力・威厳演出 |
構図を指定しないと、AIは無難な「medium shot」を選びがちだ。意図的に指定するだけで、写真としての主張が強くなる。
コツ8: モデル別の「効くプロンプト」を覚える
ここが2026年時点での最重要ポイントだ。同じプロンプトでも、モデルによって最適解が違う。
Nano Banana Pro(Gemini)は自然言語に強い。「夕日の海辺で本を読む女性、リラックスした雰囲気、シネマティック」のような日本語ふんわり指示でも、かなり高品質な絵を返す。詳細な技術用語より、状況描写重視で書くと刺さる。
Midjourney V7は短く構造化された英語プロンプトが最適。--stylize、--ar、--chaosなどのパラメータを使いこなすと別次元の絵が出る。芸術寄りの仕上がりが欲しいときの一択。
DALL-E 3(ChatGPT内)は会話型に強い。「もう少し青みを足して」「左の人物を笑顔に」のような対話的修正が効く。プロンプトを完璧にする必要がなく、雑談しながら詰めていける。
Stable DiffusionはLoRAやControlNetと組み合わせる前提のモデル。プロンプトだけでなく、参照画像や追加学習モデルが品質を決める。技術的だが自由度は最高。
動画生成AIに興味があるなら、Sora完全ガイドでプロンプト設計の応用版を扱っているので合わせて読むと理解が深まる。
コツ9: 画像参照(i2i)で構図を固定する
テキストだけで狙った構図を出すのは、正直しんどい。そこで強いのが、参照画像を渡してそれをベースに生成する「Image to Image」(i2i)だ。
主要ツールのi2i対応状況は以下。
| ツール | 対応 | 機能名 |
|---|---|---|
| Midjourney | ◯ | Image Prompt(URLを最初に貼る) |
| Nano Banana | ◯ | 画像アップロード→指示 |
| DALL-E 3 | △ | ChatGPT経由で簡易対応 |
| Stable Diffusion | ◎ | img2img、ControlNet |
参考になりそうな構図の画像をPinterestで拾ってきて、i2iで自分の素材に変換する——これが2026年のプロワークフローだ。プロンプト一発勝負より圧倒的に成功率が高い。
ちなみに紙資料を画像化したい場合はAI OCRツール完全ガイドが参考になる。文字起こし→構造化→画像生成、という流れも組める。
コツ10: イテレーションは「1要素ずつ」変える
プロンプトを試行錯誤するとき、毎回大きく書き換える人が多い。これは時間の無駄だ。何が効いているのかわからなくなる。
良いやり方は、1回につき1要素だけ変える。たとえば「ライティングだけ変える」「カメラアングルだけ変える」と決めてイテレーションする。これで「どの単語が画像にどう影響するか」が体感でわかってくる。
メモを取りながら回すと、自分専用のプロンプト辞書ができる。3週間も続ければ、初見のテーマでも一発で良い絵が出せるようになる。
闇雲に試すのは「盲目的なイテレーション」と呼ばれ、海外のプロンプトエンジニアからも失敗パターンの代表として挙げられている。検証可能な変更を1つずつ積むのが王道だ。
コツ11: 商用利用前のチェックリスト
プロンプトのコツとは少しズレるが、商用で使うなら必ず押さえてほしい点を最後に。
- 著作権規約の確認(Midjourney有料プラン、DALL-E、Nano Banana Proは基本商用OK)
- 他者の著名キャラ・実在人物の名前を入れていないか
- ロゴ・商標が紛れ込んでいないか(自動生成されることがある)
- 顔の不自然な歪みがないか(特に手と目)
- メタデータに「AI生成」表記が必要なプラットフォームか確認
特に手と顔は、AI画像のアキレス腱だ。SNS投稿前に必ず拡大チェックする習慣をつけてほしい。
業務自動化と画像生成を組み合わせたい人は、AutoGPT完全ガイドも参考になる。プロンプト生成自体をAIエージェントに任せる手法は、もはや珍しくない。
モデル別おすすめプロンプト構造比較
ここまで紹介した内容を、モデル別に1表にまとめた。困ったときの早見表として使ってほしい。
| モデル | 言語 | プロンプト長 | 必須要素 | 特殊機能 |
|---|---|---|---|---|
| Nano Banana Pro | 日英OK | 中(50-100単語) | 状況描写 | 会話型修正 |
| Midjourney V7 | 英語推奨 | 短(20-40単語) | スタイル+パラメータ | --ar, --stylize |
| DALL-E 3 | 日英OK | 中(自然文) | 主題+雰囲気 | ChatGPT対話 |
| Stable Diffusion | 英語必須 | 長(タグ羅列) | ネガティブプロンプト | LoRA, ControlNet |
自分の用途に合うモデルを1つ選んで、まずそれを徹底的に使い倒すのが上達の近道だ。3つを並行で覚えようとすると、どれも中途半端になる。
その他のAI生成ツール全般の比較は各種AIガイドで扱っているので、ツール選定で迷っている人は先にそちらを読んでおくと土台が作れる。
編集部の利用レポート|半年間で2,000枚生成して見えたこと
正直に言うと、最初の3ヶ月は全然うまくいかなかった。日本語で雑に投げて「なんか違う」を繰り返していた時期がある。
転機になったのは、英語プロンプトの構造化を始めてからだ。「主題→スタイル→構図→ライティング→品質」の5層を意識した瞬間、生成画像の歩留まりが体感3倍になった。10枚生成して使えるのが1枚から3-4枚に増えた感覚だ。
意外だったのは、Nano Banana Proの日本語耐性。Midjourneyに慣れた目で見ると「こんな雑な指示で動くの?」と驚く品質が出る。SNS用のサムネ生成なら、もはやNano Bananaでいい場面が多い。逆に作品レベルのアートはMidjourney V7が圧倒的に強い。
困ったのが「同じキャラを別ポーズで出す」一貫性問題。これはどのツールでも完全には解決していない。Midjourneyの--cref、Nano Bananaのキャラクター固定機能を組み合わせて、なんとか実用ライン。完璧を求めるならStable Diffusion + LoRA学習が必要になる。
総じて、プロンプトのコツは「型を覚えて回数を打つ」に尽きる。才能や芸術センスはほぼ要らない。建築の図面を引く感覚で、淡々と要素を並べる作業だ。
よくある質問(FAQ)
Q. AI画像のプロンプトは英語と日本語どちらが良いですか?
モデルによる。Nano Banana ProとDALL-E 3は日本語でも高品質な画像が出る。一方Midjourney V7とStable Diffusionは英語推奨で、英語のほうが圧倒的に精度が高い。迷ったら英語にしておけば大外しはしない。
Q. プロンプトの文字数に上限はありますか?
ある。Midjourneyは英単語60個程度、Stable Diffusionはトークン75個前後が実効上限。これを超えると後ろの単語が無視される。Nano BananaやDALL-Eは長文OKだが、長すぎると主題がブレるので200文字以内が無難だ。
Q. ネガティブプロンプトはどう書けばいいですか?
「描いてほしくない要素」を単語で羅列する。定番はdeformed hands, extra fingers, blurry, low quality, watermark, text。これをコピペで使い回せば、品質の底上げになる。Stable Diffusion系では必須、Midjourneyでは--noパラメータで指定する。
Q. 同じプロンプトで毎回違う画像が出るのはなぜですか?
AIモデルが内部でランダム値(seed)を使っているため。Midjourneyなら--seed、Stable DiffusionならSeed値を固定すれば、同じ結果を再現できる。微調整したいときに使うと便利。Nano BananaとDALL-Eには現状seed指定機能がない。
Q. プロンプトを学ぶための最短ルートは?
1つのモデルに絞って1日10枚×30日生成する。これだけで体感が変わる。MidjourneyならDiscordコミュニティ、Nano BananaならGoogle公式のプロンプトギャラリーで他人のプロンプトを大量に見ると上達が早い。座学より圧倒的に手を動かすこと。
