Needle in a Haystack (長文脈検索評価)
読み: にーどるいんあへいすたっく
最終更新: 2026-06-29・AI PICKS編集部
定義
Needle in a Haystackとは、LLMが長文の中から特定情報を正確に取り出せるかを測る評価手法のこと。コンテキストウィンドウの実効性能を埋め込み位置別に可視化でき、RAG設計の基準指標として使われる。
Needle in a Haystack (長文脈検索評価)とは — 詳しく解説
Needle in a Haystack(NIAH)は、Gregory KamradtがClaude 2.1評価で公開した手法で、大量のダミーテキスト(干し草)の中に1文だけ隠した事実(針)をモデルが正確に答えられるかを系統的に検証する。文書長(トークン数)と情報の埋め込み位置(先頭・中盤・末尾)の2軸でヒートマップを描き、どこで精度が落ちるかを可視化できる。 2026年現在、現場での最大の落とし穴は「公称コンテキスト長≠実効性能」だ。100万トークンを謳うモデルでも中盤付近(全体の50〜70%の位置)で正答率が顕著に落ちる「中抜け」現象が多数報告されており、RAGシステムの精度が伸び悩む際の第一チェックポイントになっている。 コスト感として、128Kトークンを複数位置・複数回テストするだけでAPIコストが数万円に達することもある。AI PICKSの実運用では「全長テストは月1回、日次評価は16K短尺で代替」という運用が定着しつつある。モデル選定時は公式ベンチ数値より自社データでのNIAHスコアを最優先するのが現場の鉄則だ。
Needle in a Haystack (長文脈検索評価)の使用例
- RAGで回答精度が低い→NIAHで128Kトークン中盤の正答率を計測→チャンクサイズを2,000→500トークンに縮小し精度87%→96%に改善。
- Claude vs Geminiのモデル比較でNIAHを実施。末尾20%の正答率が12ポイント差→コンテキスト後半を多用するユースケースでGeminiを採用する決め手となった。
Needle in a Haystack (長文脈検索評価)に関連するAIツール
関連用語
「評価指標」の他の用語
Massive Multitask Language Understanding。 57 分野・1.5 万問の LLM 知識評価ベンチマーク。
OpenAI 発の Python コーディング能力ベンチマーク。 164 問の関数実装タスク。
ユーザー投票による LLM の人間評価ランキング。 Elo レーティングで モデルを順位付け。
ベンチマークとは、AIモデルの性能を標準化されたテスト課題で数値化し、異なるモデル間を公平に比較するための評価基準セットのこと。MMLUやHumanEval等、用途別に数十種類が存在する。
SWE-benchとはGitHubの実際のIssueをAIが自動修正できるかを測る、コーディングAI評価の業界標準ベンチマークのこと。
GPQAとは、生物・物理・化学の大学院レベルの難問でAIの推論力を測る評価ベンチマークのこと。Googleで検索しても解けない設計が特徴。
AI用語辞典をすべて見てみませんか
12カテゴリ・302語以上を体系的に整理しています
辞典トップへ