幻覚率 (Hallucination Rate)
読み: げんかくりつ はるしねーしょんれーと
最終更新: 2026-06-28・AI PICKS編集部
定義
幻覚率とは、AIが事実と異なる情報を生成する割合を数値化した評価指標のこと。モデルの信頼性を測る基本指標として、本番導入前の検証フェーズで必ず確認される。
幻覚率 (Hallucination Rate)とは — 詳しく解説
幻覚率(Hallucination Rate)は、LLMが出力する回答のうち、事実に反する情報・存在しない引用・架空の固有名詞などを含む割合を指す評価指標。一般に「テストセット全回答数のうち、人手またはリファレンスLLMが『幻覚あり』と判定した件数の比率」として計算される。 2026年の実運用では、単純な幻覚率の数値だけでは現場判断に不十分なケースが多い。主な落とし穴は3点ある。①測定コスト:人手評価は精度が高いが1件あたり数十〜数百円かかり、大規模ベンチマークでは数十万円規模になる。②測定粒度:文書全体か固有名詞のみか数値のみかで相場感が大きく変わる。③タスク依存性:カスタマーサポートと医療診断では許容できる幻覚率の閾値がまるで異なる。 AI PICKSが現場のツール評価で確認している傾向として、RAGを組み合わせると幻覚率を60〜80%削減できるケースが多い反面、検索精度が低いRAGはかえって幻覚を増やすという逆説も起きる。Weights & BiasesなどのMLOpsツールを使った継続モニタリングが2026年現在の標準的な管理手法。ファインチューニング後に幻覚率が上昇する事例も多く、事前の回帰テストが必須となっている。
幻覚率 (Hallucination Rate)の使用例
- GPT-4oをカスタマーサポートに導入する際、100問のテストセットで幻覚率を計測したところ12%を記録。RAG導入後に3%まで改善し、本番リリースの判断基準として活用した。
- 医療系AIの幻覚率評価では文書全体でなく、薬剤名・疾患名など固有名詞のみを対象にした「ドメイン特化幻覚率」を設計することが現場で推奨されている。
幻覚率 (Hallucination Rate)に関連するAIツール
関連用語
「評価指標」の他の用語
Massive Multitask Language Understanding。 57 分野・1.5 万問の LLM 知識評価ベンチマーク。
OpenAI 発の Python コーディング能力ベンチマーク。 164 問の関数実装タスク。
ユーザー投票による LLM の人間評価ランキング。 Elo レーティングで モデルを順位付け。
ベンチマークとは、AIモデルの性能を標準化されたテスト課題で数値化し、異なるモデル間を公平に比較するための評価基準セットのこと。MMLUやHumanEval等、用途別に数十種類が存在する。
SWE-benchとはGitHubの実際のIssueをAIが自動修正できるかを測る、コーディングAI評価の業界標準ベンチマークのこと。
GPQAとは、生物・物理・化学の大学院レベルの難問でAIの推論力を測る評価ベンチマークのこと。Googleで検索しても解けない設計が特徴。
AI用語辞典をすべて見てみませんか
12カテゴリ・252語以上を体系的に整理しています
辞典トップへ