AI PICKS
AI用語辞典評価指標

忠実性 (Faithfulness)

読み: ちゅうじつせい

最終更新: 2026-06-28・AI PICKS編集部

定義

忠実性とは、AIが生成したテキストが参照元の文書や提供されたコンテキストにどれだけ正確に基づいているかを測る評価指標のこと。

忠実性 (Faithfulness)とは — 詳しく解説

忠実性(Faithfulness)は、RAG(検索拡張生成)システムの評価において中心的な役割を持つ指標で、モデルが生成した回答の各主張が提供されたソースドキュメントから導出可能かどうかを数値化する。スコアは0〜1で表され、1に近いほど生成テキストがコンテキストに忠実であることを意味する。RAGASなどの評価フレームワークでは、生成文中の各ステートメントをコンテキストに照合してスコアを自動算出する。 2026年時点の実運用での落とし穴として、忠実性スコアが高くても「情報の鮮度」や「回答の完全性」は別指標として評価しなければならない点がある。コンテキストが古い文書を含む場合、忠実性は高くても事実として誤った回答を返すリスクがある。現場では忠実性0.8以上を合格ラインに設定するケースが相場感として多い。 コスト面では、Weights & Biasesなどの評価ツールで自動モニタリングを組み込めば、人手評価(1件あたり数十〜数百円)と比べ1/10以下のコストで継続評価が可能だ。社内FAQや法務・医療系チャットボットなど、ハルシネーションが致命的なユースケースでは、忠実性を優先指標としてパイプラインに組み込むのがAI PICKS編集部の推奨構成。Labelboxなどのデータラベリング基盤と組み合わせ、定期的な人手評価でLLM-as-Judgeのバイアスを校正するのが現場での定石となっている。

忠実性 (Faithfulness)の使用例

  • 社内規程RAGで忠実性スコアを計測したところ0.63と低く、チャンク分割サイズを500→200トークンに変更したら0.89まで改善した。
  • LLM-as-Judgeで忠実性を自動評価するプロンプト例:「以下のコンテキストと回答を比較し、回答の各主張がコンテキストから支持されるか0〜1で採点せよ」

忠実性 (Faithfulness)に関連するAIツール

関連用語

評価指標」の他の用語

AI用語辞典をすべて見てみませんか

12カテゴリ・252語以上を体系的に整理しています

辞典トップへ