Question 1

Needle in a Haystack (長文脈検索評価)とは何ですか？

Accepted Answer

Needle in a Haystackとは、LLMが長文の中から特定情報を正確に取り出せるかを測る評価手法のこと。コンテキストウィンドウの実効性能を埋め込み位置別に可視化でき、RAG設計の基準指標として使われる。 Needle in a Haystack（NIAH）は、Gregory KamradtがClaude 2.1評価で公開した手法で、大量のダミーテキスト（干し草）の中に1文だけ隠した事実（針）をモデルが正確に答えられるかを系統的に検証する。文書長（トークン数）と情報の埋め込み位置（先頭・中盤・末尾）の2軸でヒートマップを描き、どこで精度が落ちるかを可視化できる。

2026年現在、現場での最大の落と

Question 2

Needle in a Haystack (長文脈検索評価)の使い方や活用例を教えてください

Accepted Answer

代表的な活用例は次のとおりです。RAGで回答精度が低い→NIAHで128Kトークン中盤の正答率を計測→チャンクサイズを2,000→500トークンに縮小し精度87%→96%に改善。 / Claude vs Geminiのモデル比較でNIAHを実施。末尾20%の正答率が12ポイント差→コンテキスト後半を多用するユースケースでGeminiを採用する決め手となった。詳細な解説はNeedle in a Haystack (長文脈検索評価)の詳細ページをご覧ください。

Question 3

Needle in a Haystack (長文脈検索評価)とコンテキストウィンドウの違いは何ですか？

Accepted Answer

Needle in a Haystack (長文脈検索評価)とコンテキストウィンドウはAI用語として関連していますが、役割や使用場面が異なります。Needle in a Haystack (長文脈検索評価)はNeedle in a Haystackとは、LLMが長文の中から特定情報を正確に取り出せるかを測る評価手法のこと。コンテキストウィンドウの実効性能を埋め込み位置別に可視化でき、RAG設計の基準指標として使われる。詳しくは関連用語の解説ページをご参照ください。

Needle in a Haystack (長文脈検索評価)

定義

Needle in a Haystack (長文脈検索評価)とは — 詳しく解説

Needle in a Haystack (長文脈検索評価)の使用例

Needle in a Haystack (長文脈検索評価)に関連するAIツール

関連用語

「評価指標」の他の用語

AI用語辞典をすべて見てみませんか