KVキャッシュ (KV Cache)
読み: けーぶいきゃっしゅ
最終更新: 2026-06-26・AI PICKS編集部
定義
KVキャッシュとは、LMの推論時に自己注意機構のキー(K)・バリュー(V)行列を再計算せずメモリ上に保持する高速化技術のこと。
KVキャッシュ (KV Cache)とは — 詳しく解説
Transformerベースの大規模言語モデル(LLM)において、自己注意機構(Self-Attention)が生成するキー(K)とバリュー(V)の行列をメモリ上にキャッシュする技術。トークン生成のたびに全トークン分のK・V行列を再計算するのは計算コストが膨大なため、KVキャッシュにより過去トークン分を再利用して推論速度を大幅に改善する。 2026年の実運用での最大の落とし穴はメモリ消費量だ。GPT-4クラスのモデルで128kトークンのコンテキストを維持するだけで数十GBのVRAMを消費し、VRAM不足でOOMエラーが頻発するケースが現場で続出している。対策としてFlashAttention、PagedAttention(vLLM)、INT8/FP8量子化KVなどの省メモリ手法が普及しており、用途に応じた選択が重要になっている。 相場感としては、フルKVキャッシュを維持できるA100 80GBクラスのGPUはクラウドで1時間あたり数百〜数千円。コスト最適化にはスライディングウィンドウ方式や量子化KVの採用が有効で、AI PICKSでも長文コンテキストを扱うAIエージェントツールを評価する際、KVキャッシュ効率を実用性の重要指標としている。
KVキャッシュ (KV Cache)の使用例
- Claude 3.5の128kコンテキストでRAGを実装する際、KVキャッシュのVRAM消費を試算してからGPUインスタンス種別を選定した。
- vLLMのPagedAttentionでKVキャッシュを効率管理したところ、同一GPU上での同時リクエスト処理数が約3倍に向上した。
KVキャッシュ (KV Cache)に関連するAIツール
関連用語
「インフラ・学習」の他の用語
既存の AI モデルを 自社データで追加学習させて 専門特化させる方法。
データから法則を自動学習させる AI 技術の総称。 ディープラーニングや LLM もここに含まれる。
ニューラルネットワークを多層化した機械学習手法。 LLM / 画像認識 / 音声認識 の基盤技術。
Self-Attention 機構を中核とするニューラルネット構造。 LLM / 画像 / 音声 すべての基盤。
入力系列のどこに注目すべきかを 動的に重み付けする仕組み。 Transformer の中核。
LoRAとは、大規模モデルの重みを凍結したまま低ランク行列ペアを追加挿入することで、全パラメータの1%以下の計算コストで特定ドメインへの適応を実現するファインチューニング手法のこと。
AI用語辞典をすべて見てみませんか
12カテゴリ・152語以上を体系的に整理しています
辞典トップへ