Question 1

KVキャッシュ (KV Cache)とは何ですか？

Accepted Answer

KVキャッシュとは、LMの推論時に自己注意機構のキー（K）・バリュー（V）行列を再計算せずメモリ上に保持する高速化技術のこと。 Transformerベースの大規模言語モデル（LLM）において、自己注意機構（Self-Attention）が生成するキー（K）とバリュー（V）の行列をメモリ上にキャッシュする技術。トークン生成のたびに全トークン分のK・V行列を再計算するのは計算コストが膨大なため、KVキャッシュにより過去トークン分を再利用して推論速度を大幅に改善する。

2026年の実運用での最大の落とし穴はメモリ消費量だ。G

Question 2

KVキャッシュ (KV Cache)の使い方や活用例を教えてください

Accepted Answer

代表的な活用例は次のとおりです。Claude 3.5の128kコンテキストでRAGを実装する際、KVキャッシュのVRAM消費を試算してからGPUインスタンス種別を選定した。 / vLLMのPagedAttentionでKVキャッシュを効率管理したところ、同一GPU上での同時リクエスト処理数が約3倍に向上した。詳細な解説はKVキャッシュ (KV Cache)の詳細ページをご覧ください。

Question 3

KVキャッシュ (KV Cache)とLLM (大規模言語モデル)の違いは何ですか？

Accepted Answer

KVキャッシュ (KV Cache)とLLM (大規模言語モデル)はAI用語として関連していますが、役割や使用場面が異なります。KVキャッシュ (KV Cache)はKVキャッシュとは、LMの推論時に自己注意機構のキー（K）・バリュー（V）行列を再計算せずメモリ上に保持する高速化技術のこと。詳しくは関連用語の解説ページをご参照ください。

KVキャッシュ (KV Cache)

定義

KVキャッシュ (KV Cache)とは — 詳しく解説

KVキャッシュ (KV Cache)の使用例

KVキャッシュ (KV Cache)に関連するAIツール

関連用語

「インフラ・学習」の他の用語

AI用語辞典をすべて見てみませんか