プロンプトキャッシング (Prompt Caching)
読み: ぷろんぷときゃっしんぐ
最終更新: 2026-06-28・AI PICKS編集部
定義
プロンプトキャッシングとは、LLM APIへの入力プロンプトの一部をサーバー側でキャッシュし、同一プレフィックスを再利用することで処理コストとレイテンシーを削減する技術のこと。
プロンプトキャッシング (Prompt Caching)とは — 詳しく解説
プロンプトキャッシングは、LLMへのAPI呼び出し時に同一の入力テキスト(システムプロンプト・コンテキスト・few-shotサンプル等)をサーバー側でキャッシュし、後続の呼び出しで再処理を省略することでコストとレイテンシーを削減する仕組みだ。 Anthropic(Claude 3.5系以降)ではキャッシュヒット時に入力トークンコストを最大90%削減でき、OpenAI(GPT-4o等)でもプレフィックスキャッシュが自動適用される。2026年現在、主要LLMプロバイダーのほぼ全てが何らかのキャッシュ機構を提供している。 実運用での落とし穴として、(1)キャッシュ書き込み時は通常より割高(Anthropicは約1.25倍)、(2)キャッシュはプレフィックスの完全一致で機能するため、タイムスタンプや動的IDをプロンプト前半に埋め込むと即座にキャッシュが無効化される、(3)デフォルトTTLが5分のプロバイダーではバッチ処理との相性が悪い場合がある点がある。 AI PICKSが現場でよく見る相場感は、大規模RAGアプリで月数万〜数十万円のトークン費用が3〜7割削減できるケース。ただし低頻度呼び出しでは書き込みコストが節約額を上回る逆転現象も起きる。選び方の基準は「同一プロンプト部分を5分以内に複数回使い回すか」。RAGや長いシステムプロンプトを持つAIエージェントとの組み合わせで効果が最大化する。
プロンプトキャッシング (Prompt Caching)の使用例
- Claude APIでシステムプロンプトにcache_controlフラグを付与すると、2回目以降の呼び出しでキャッシュヒット時に入力トークンコストが約90%削減される。
- RAGシステムで検索結果ドキュメントをキャッシュすることで、同一コンテキストを使う連続質問のレスポンス速度とコスト効率が大幅に改善する。
プロンプトキャッシング (Prompt Caching)に関連するAIツール
関連用語
「プロンプト技法」の他の用語
AI への指示文。 役割 + タスク + 制約 + 文脈 の 4 要素を明示するのが基本。
AI への指示文を 設計する技術。 役割・タスク・制約・文脈 の 4 要素 + Few-shot などのテクニック。
AI に「お手本の例」を 3-5 件見せてから タスクを依頼する手法。 出力フォーマットが安定する。
AI に「ステップごとに考えてください」と促し、 複雑な推論精度を上げる手法。
例示なしで AI にタスクを依頼する方法。 最新モデルは Zero-shot 精度が大幅に向上した。
システムプロンプトとは、AIアシスタントの応答スタイル・役割・制約をあらかじめ設定する隠し命令文のこと。ユーザーの入力より先に処理され、会話全体のトーンと動作範囲を規定する。
AI用語辞典をすべて見てみませんか
12カテゴリ・252語以上を体系的に整理しています
辞典トップへ