親ドキュメント検索 (Parent-Document Retrieval)
読み: おやどきゅめんとけんさく
最終更新: 2026-06-29・AI PICKS編集部
定義
親ドキュメント検索とは、RAGで小さなチャンクで検索精度を高めながら、LLMへの入力時には元の大きな親ドキュメントを渡すことで回答品質を両立させる手法のこと。
親ドキュメント検索 (Parent-Document Retrieval)とは — 詳しく解説
親ドキュメント検索(Parent-Document Retrieval)は、RAGパイプラインにおける「検索精度」と「文脈充足」のトレードオフを解消するアーキテクチャ手法だ。通常のRAGでは小さなチャンク(200〜500トークン)でベクトル検索すると意味的な類似度は上がるが、LLMが回答生成に必要な文脈が断片化してしまう問題がある。本手法ではインデックス時に「子チャンク」と「親ドキュメント」の2層で保存し、検索は子チャンクで行いながら取得後に親ドキュメントをLLMへ渡す設計をとる。 2026年の実運用で最も多い落とし穴は親ドキュメントのサイズ設定ミス。大きすぎるとコンテキストウィンドウを圧迫して回答品質がむしろ低下し、現場では2,000〜4,000トークンが相場感として定着しつつある。文書構造が明確な法律・医療・技術マニュアルで効果が高く、コードベースや非構造化ログには不向きなケースも多い。LangChainのParentDocumentRetrieverやLlamaIndexで実装が容易なため、AI PICKSが追う社内知識検索ツールでも2026年に入り採用事例が急増している。
親ドキュメント検索 (Parent-Document Retrieval)の使用例
- 法律文書を段落単位でインデックスし、検索ヒットした子チャンクの親セクション全体をLLMに渡してコンプライアンス質問に回答させる活用例。
- 製品マニュアル全1,000ページをチャンク化し、類似チャンクの親ドキュメントを取得してサポートボットの回答品質を向上させた事例。
親ドキュメント検索 (Parent-Document Retrieval)に関連するAIツール
関連用語
「RAG・検索拡張」の他の用語
Retrieval-Augmented Generation。 社内資料や外部 DB を検索してから AI に答えさせる仕組み。
文章や画像を 数値ベクトルに変換する技術。 類似度検索や RAG の基礎。
出典付きで回答する AI 検索エンジン。 リサーチ業務で従来検索を置き換える。
Google 検索の上位に AI が回答を提示する 「AI Overviews」 や Perplexity 等の新世代検索。
Embedding (数値ベクトル) を高速に類似度検索するための専用 DB。 Pinecone / Qdrant / Weaviate が代表。
NotebookLMとはGoogleが提供するRAGベースのAIリサーチアシスタントのこと。ユーザーがアップロードした文書のみを情報源として回答を生成するため、ハルシネーションを大幅に抑制できる。
AI用語辞典をすべて見てみませんか
12カテゴリ・302語以上を体系的に整理しています
辞典トップへ