AI PICKS
AI用語辞典インフラ・学習

KVキャッシュ (KV Cache)

読み: けーぶいきゃっしゅ

最終更新: 2026-06-26・AI PICKS編集部

定義

KVキャッシュとは、LMの推論時に自己注意機構のキー(K)・バリュー(V)行列を再計算せずメモリ上に保持する高速化技術のこと。

KVキャッシュ (KV Cache)とは — 詳しく解説

Transformerベースの大規模言語モデル(LLM)において、自己注意機構(Self-Attention)が生成するキー(K)とバリュー(V)の行列をメモリ上にキャッシュする技術。トークン生成のたびに全トークン分のK・V行列を再計算するのは計算コストが膨大なため、KVキャッシュにより過去トークン分を再利用して推論速度を大幅に改善する。 2026年の実運用での最大の落とし穴はメモリ消費量だ。GPT-4クラスのモデルで128kトークンのコンテキストを維持するだけで数十GBのVRAMを消費し、VRAM不足でOOMエラーが頻発するケースが現場で続出している。対策としてFlashAttention、PagedAttention(vLLM)、INT8/FP8量子化KVなどの省メモリ手法が普及しており、用途に応じた選択が重要になっている。 相場感としては、フルKVキャッシュを維持できるA100 80GBクラスのGPUはクラウドで1時間あたり数百〜数千円。コスト最適化にはスライディングウィンドウ方式や量子化KVの採用が有効で、AI PICKSでも長文コンテキストを扱うAIエージェントツールを評価する際、KVキャッシュ効率を実用性の重要指標としている。

KVキャッシュ (KV Cache)の使用例

  • Claude 3.5の128kコンテキストでRAGを実装する際、KVキャッシュのVRAM消費を試算してからGPUインスタンス種別を選定した。
  • vLLMのPagedAttentionでKVキャッシュを効率管理したところ、同一GPU上での同時リクエスト処理数が約3倍に向上した。

KVキャッシュ (KV Cache)に関連するAIツール

関連用語

インフラ・学習」の他の用語

AI用語辞典をすべて見てみませんか

12カテゴリ・152語以上を体系的に整理しています

辞典トップへ