AI PICKS
AI用語辞典プロンプト技法

プロンプトキャッシング (Prompt Caching)

読み: ぷろんぷときゃっしんぐ

最終更新: 2026-06-28・AI PICKS編集部

定義

プロンプトキャッシングとは、LLM APIへの入力プロンプトの一部をサーバー側でキャッシュし、同一プレフィックスを再利用することで処理コストとレイテンシーを削減する技術のこと。

プロンプトキャッシング (Prompt Caching)とは — 詳しく解説

プロンプトキャッシングは、LLMへのAPI呼び出し時に同一の入力テキスト(システムプロンプト・コンテキスト・few-shotサンプル等)をサーバー側でキャッシュし、後続の呼び出しで再処理を省略することでコストとレイテンシーを削減する仕組みだ。 Anthropic(Claude 3.5系以降)ではキャッシュヒット時に入力トークンコストを最大90%削減でき、OpenAI(GPT-4o等)でもプレフィックスキャッシュが自動適用される。2026年現在、主要LLMプロバイダーのほぼ全てが何らかのキャッシュ機構を提供している。 実運用での落とし穴として、(1)キャッシュ書き込み時は通常より割高(Anthropicは約1.25倍)、(2)キャッシュはプレフィックスの完全一致で機能するため、タイムスタンプや動的IDをプロンプト前半に埋め込むと即座にキャッシュが無効化される、(3)デフォルトTTLが5分のプロバイダーではバッチ処理との相性が悪い場合がある点がある。 AI PICKSが現場でよく見る相場感は、大規模RAGアプリで月数万〜数十万円のトークン費用が3〜7割削減できるケース。ただし低頻度呼び出しでは書き込みコストが節約額を上回る逆転現象も起きる。選び方の基準は「同一プロンプト部分を5分以内に複数回使い回すか」。RAGや長いシステムプロンプトを持つAIエージェントとの組み合わせで効果が最大化する。

プロンプトキャッシング (Prompt Caching)の使用例

  • Claude APIでシステムプロンプトにcache_controlフラグを付与すると、2回目以降の呼び出しでキャッシュヒット時に入力トークンコストが約90%削減される。
  • RAGシステムで検索結果ドキュメントをキャッシュすることで、同一コンテキストを使う連続質問のレスポンス速度とコスト効率が大幅に改善する。

プロンプトキャッシング (Prompt Caching)に関連するAIツール

関連用語

プロンプト技法」の他の用語

AI用語辞典をすべて見てみませんか

12カテゴリ・252語以上を体系的に整理しています

辞典トップへ