BM25 (キーワード検索アルゴリズム)
読み: びーえむにじゅうご
最終更新: 2026-06-27・AI PICKS編集部
定義
BM25とはOkapi BM25とも呼ばれる情報検索アルゴリズムで、クエリの語句と文書の一致度をTF-IDFを拡張した計算式でスコアリングする全文検索の業界標準手法のこと。
BM25 (キーワード検索アルゴリズム)とは — 詳しく解説
BM25(Best Match 25)は1994年にロバートソンらが発表した確率的情報検索モデルで、現在もElasticsearch・OpenSearch・Solrなどのデフォルトランキングアルゴリズムとして広く採用されている。TF-IDFを進化させた仕組みで、単語出現頻度が増えるほどスコアが飽和する「飽和関数」と文書長の正規化パラメータ(k1・b)を組み合わせ、長文・短文問わず公平に評価できる点が特徴だ。 2026年の実運用では、RAGパイプラインの第一段階としてBM25によるキーワード検索とベクトル埋め込みによるセマンティック検索を組み合わせた「ハイブリッド検索」が現場での標準構成になっている。BM25単独では同義語・表記揺れに弱く、専門用語が多いドメインではリコール率が落ちやすいという落とし穴がある。コスト感としてはBM25のインデックス生成はほぼ無料で、Elasticsearchの月数千円〜数万円の相場感で大規模コーパスにも対応できる。ハイブリッド構成ではRRF(Reciprocal Rank Fusion)でスコアを統合する手法が主流で、AI PICKSで取材した事例でもBM25+埋め込みのハイブリッドが品質と運用コストのバランスで最も支持されている。
BM25 (キーワード検索アルゴリズム)の使用例
- 社内文書10万件にBM25インデックスを構築し、上位100件に絞ってからEmbeddingで再ランキングする二段階RAGを実装した。
- デフォルトのb=0.75では日本語長文で精度が出ず、b=0.5に調整して文書長正規化を弱めたら再現率が改善した現場事例が多い。
BM25 (キーワード検索アルゴリズム)に関連するAIツール
関連用語
「RAG・検索拡張」の他の用語
Retrieval-Augmented Generation。 社内資料や外部 DB を検索してから AI に答えさせる仕組み。
文章や画像を 数値ベクトルに変換する技術。 類似度検索や RAG の基礎。
出典付きで回答する AI 検索エンジン。 リサーチ業務で従来検索を置き換える。
Google 検索の上位に AI が回答を提示する 「AI Overviews」 や Perplexity 等の新世代検索。
Embedding (数値ベクトル) を高速に類似度検索するための専用 DB。 Pinecone / Qdrant / Weaviate が代表。
NotebookLMとはGoogleが提供するRAGベースのAIリサーチアシスタントのこと。ユーザーがアップロードした文書のみを情報源として回答を生成するため、ハルシネーションを大幅に抑制できる。
AI用語辞典をすべて見てみませんか
12カテゴリ・202語以上を体系的に整理しています
辞典トップへ