AI PICKS
AI用語辞典RAG・検索拡張

チャンキング (Chunking)

読み: ちゃんきんぐ

最終更新: 2026-06-25・AI PICKS編集部

定義

チャンキングとは、RAGシステムで長文書を検索・処理しやすい小単位に分割する技術のこと。分割サイズや方法が検索精度と回答品質を左右する重要な前処理工程。

チャンキング (Chunking)とは — 詳しく解説

チャンキング(Chunking)は、RAG(検索拡張生成)パイプラインにおいて、PDFや長文テキストなどのドキュメントを埋め込み(Embedding)生成・ベクトル検索に適した小単位(チャンク)へ分割するプロセスを指す。 主要な分割戦略には、固定サイズ分割(Fixed-size)、センテンス境界分割、セマンティック分割、文書構造(見出し・段落)を活かしたHierarchical分割などがある。2026年時点の実運用での最大の落とし穴は、単純な固定長分割によるコンテキスト分断で、チャンク境界で文脈が切れてretrieval精度が著しく低下するケースが頻発している。 現場での選び方の相場感として、チャンクサイズは256〜1024トークンが主流だが、法律文書・技術仕様書など構造化テキストでは段落単位の512〜2048トークンが効果的。オーバーラップ(重複領域)を10〜20%設けることで文脈欠落を補う手法が定番だ。AI PICKSが収集した事例では、チャンクサイズの最適化だけでRAG回答精度が20〜40%向上したという報告が複数ある。 コスト面では、チャンク数増加に比例してEmbedding生成費とベクトルDB容量が膨らむため過細分割は禁物。2026年現在はLLMのコンテキストウィンドウ拡大で「大チャンクをそのまま渡す」手法も台頭しているが、ノイズ混入によるハルシネーション増加というトレードオフが依然として課題となっている。

チャンキング (Chunking)の使用例

  • 技術マニュアルをRAGに組み込む際、セクション単位(800トークン)+オーバーラップ15%で分割し、跨ぎ検索の精度が大幅に向上した実装例。
  • PDFの契約書を固定256トークンで分割すると条項境界で文脈が切れるため、Article単位の構造分割に切り替えた現場事例。

チャンキング (Chunking)に関連するAIツール

関連用語

RAG・検索拡張」の他の用語

AI用語辞典をすべて見てみませんか

12カテゴリ・102語以上を体系的に整理しています

辞典トップへ