AI PICKS
AI用語辞典評価指標

Needle in a Haystack (長文脈検索評価)

読み: にーどるいんあへいすたっく

最終更新: 2026-06-29・AI PICKS編集部

定義

Needle in a Haystackとは、LLMが長文の中から特定情報を正確に取り出せるかを測る評価手法のこと。コンテキストウィンドウの実効性能を埋め込み位置別に可視化でき、RAG設計の基準指標として使われる。

Needle in a Haystack (長文脈検索評価)とは — 詳しく解説

Needle in a Haystack(NIAH)は、Gregory KamradtがClaude 2.1評価で公開した手法で、大量のダミーテキスト(干し草)の中に1文だけ隠した事実(針)をモデルが正確に答えられるかを系統的に検証する。文書長(トークン数)と情報の埋め込み位置(先頭・中盤・末尾)の2軸でヒートマップを描き、どこで精度が落ちるかを可視化できる。 2026年現在、現場での最大の落とし穴は「公称コンテキスト長≠実効性能」だ。100万トークンを謳うモデルでも中盤付近(全体の50〜70%の位置)で正答率が顕著に落ちる「中抜け」現象が多数報告されており、RAGシステムの精度が伸び悩む際の第一チェックポイントになっている。 コスト感として、128Kトークンを複数位置・複数回テストするだけでAPIコストが数万円に達することもある。AI PICKSの実運用では「全長テストは月1回、日次評価は16K短尺で代替」という運用が定着しつつある。モデル選定時は公式ベンチ数値より自社データでのNIAHスコアを最優先するのが現場の鉄則だ。

Needle in a Haystack (長文脈検索評価)の使用例

  • RAGで回答精度が低い→NIAHで128Kトークン中盤の正答率を計測→チャンクサイズを2,000→500トークンに縮小し精度87%→96%に改善。
  • Claude vs Geminiのモデル比較でNIAHを実施。末尾20%の正答率が12ポイント差→コンテキスト後半を多用するユースケースでGeminiを採用する決め手となった。

Needle in a Haystack (長文脈検索評価)に関連するAIツール

関連用語

評価指標」の他の用語

AI用語辞典をすべて見てみませんか

12カテゴリ・302語以上を体系的に整理しています

辞典トップへ