AI PICKS
AI用語辞典プロンプト技法

マルチモーダルプロンプト (Multimodal Prompting)

読み: まるちもーだるぷろんぷと

最終更新: 2026-06-30・AI PICKS編集部

定義

マルチモーダルプロンプトとは、テキストだけでなく画像・音声・動画・PDFなどを組み合わせてAIに指示を与えるプロンプト技法のこと。

マルチモーダルプロンプト (Multimodal Prompting)とは — 詳しく解説

マルチモーダルプロンプトは、テキスト・画像・音声・動画など複数のモダリティを組み合わせてAIへ入力し、テキスト単体では伝えにくい情報を正確に処理させるプロンプト技法だ。GPT-4o・Gemini・Claudeが視覚理解に対応した2024年以降に普及が加速し、2026年現在は業務の現場でスクリーンショットのデバッグ・設計図の解析・帳票OCRなど多様な用途で使われている。 実運用での最大の落とし穴は「画像トークンコストの膨張」だ。高解像度画像をそのまま渡すと消費トークンがテキストの10〜30倍に跳ね上がる。相場感としてはAPIで月1万リクエストを処理する場合、画像ありだとテキスト単体比で月額5〜20倍になるケースが多い。コスト最適化には長辺512px以下へのリサイズやlow detailモード指定が有効だ。 現場での選び方の基本は「その問いに本当に画像が必要か」を問うこと。テキストで代替できる場面には使わない。AI PICKSの推奨は、モダリティ追加によるコスト増と精度向上のトレードオフを事前に試算してから本番投入する方針だ。2026年時点でコスト効率が高いのはGemini 2.0 Flash、精度重視ならClaude 3.7 SonnetかGPT-4oが主流となっている。

マルチモーダルプロンプト (Multimodal Prompting)の使用例

  • このUIのスクリーンショットを見て、モバイル表示の問題点を3つ指摘してください(画像+テキストの組み合わせ例)
  • 添付の契約書PDFから重要な条件を抜き出し、箇条書きで教えてください(PDF+テキストの組み合わせ例)

マルチモーダルプロンプト (Multimodal Prompting)に関連するAIツール

関連用語

プロンプト技法」の他の用語

AI用語辞典をすべて見てみませんか

12カテゴリ・352語以上を体系的に整理しています

辞典トップへ