Recall@k (検索再現率)
読み: りこーるあっとけー
最終更新: 2026-06-29・AI PICKS編集部
定義
Recall@kとは、検索・推薦システムが上位k件の結果の中に、正解となる関連アイテムをどの割合で含めているかを測る評価指標のこと。
Recall@k (検索再現率)とは — 詳しく解説
Recall@kは情報検索・推薦システムの評価指標で、「全正解アイテムのうち上位k件に含まれた数の割合」を0〜1で表す。正解が10件ある中でRecall@5=0.6なら、上位5件に6件の正解が含まれていることを意味する。 2026年現在、RAGシステムの普及により現場でのRecall@kの重要性は急上昇している。RAGではretrieverがk件の文書を取得してLLMに渡す構造上、正解文書がk件に含まれていなければ、どんな高性能LLMでも正確な回答は不可能だ。AI PICKSが調査した実運用事例では、Recall@5を0.7以下に放置したRAGシステムで幻覚率が約3倍になるケースが報告されている。 落とし穴は「kを大きくすれば解決」という誤解だ。k=100にすれば再現率は上がるが、LLMのコンテキストウィンドウを圧迫し、ノイズ文書が回答精度を落とす。2026年の相場感ではRAGのkは5〜20が主流で、Recall@10で0.8以上を目標とするプロジェクトが多い。 現場での選び方は用途次第。医療・法務など「見落とし厳禁」の領域ではRecall@k最重視、ECの商品推薦などUX重視の場面ではPrecision@kやNDCGと組み合わせて使う。embeddingモデルのドメイン特化とfine-tuningがRecall@k向上の最短経路だ。
Recall@k (検索再現率)の使用例
- RAGシステム構築時にChromaでk=10を設定したがRecall@10が0.65と低く、embeddingモデルをドメイン特化版に交換したところ0.85に改善し幻覚率が半減した。
- 法律相談AIの本番リリース基準としてRecall@5≧0.80を設定。fine-tuning前は0.55で落第、特化学習後に0.83を達成して初めてリリースを承認した現場事例。
Recall@k (検索再現率)に関連するAIツール
関連用語
「評価指標」の他の用語
Massive Multitask Language Understanding。 57 分野・1.5 万問の LLM 知識評価ベンチマーク。
OpenAI 発の Python コーディング能力ベンチマーク。 164 問の関数実装タスク。
ユーザー投票による LLM の人間評価ランキング。 Elo レーティングで モデルを順位付け。
ベンチマークとは、AIモデルの性能を標準化されたテスト課題で数値化し、異なるモデル間を公平に比較するための評価基準セットのこと。MMLUやHumanEval等、用途別に数十種類が存在する。
SWE-benchとはGitHubの実際のIssueをAIが自動修正できるかを測る、コーディングAI評価の業界標準ベンチマークのこと。
GPQAとは、生物・物理・化学の大学院レベルの難問でAIの推論力を測る評価ベンチマークのこと。Googleで検索しても解けない設計が特徴。
AI用語辞典をすべて見てみませんか
12カテゴリ・302語以上を体系的に整理しています
辞典トップへ