ベンチマーク汚染 (Benchmark Contamination)
読み: べんちまーくおせん
最終更新: 2026-06-26・AI PICKS編集部
定義
ベンチマーク汚染とは、AIモデルの訓練データにテスト用評価データが混入し、性能スコアが実際の能力より高く見える現象のこと。
ベンチマーク汚染 (Benchmark Contamination)とは — 詳しく解説
ベンチマーク汚染は、LLMや機械学習モデルの評価において深刻な問題となっている。モデルの事前学習データにMMLUやHumanEvalといった公開評価セットが含まれると、モデルは問題文と正解を「記憶」してしまい、実際の推論能力を超えたスコアを記録する。2026年現在、主要LLMのリーダーボードへの不信感は業界全体に広がっており、現場では「公開ベンチマークより自社ユースケースで実測する」という判断軸が定着しつつある。実運用での最大の落とし穴は、公開スコアを根拠にモデルを選定し、本番導入後にパフォーマンスが大幅に下回るケースだ。AI PICKSでも各ツールの公称スコアよりも、利用者レビューや独自評価を重視しているのはこのためである。対策としては非公開の社内評価セット構築と継続的なモニタリングが有効で、評価セット整備には初期コストとして数十万円規模が必要になることもある。
ベンチマーク汚染 (Benchmark Contamination)の使用例
- 「MMLUスコア90%超のモデルが社内法務タスクでは60%台」—公開ベンチの過大評価が本番で露呈した典型例。
- 新モデル導入前に非公開の社内QAセット100問で実測し、公開スコア3位のモデルが最高精度を記録した事例。
ベンチマーク汚染 (Benchmark Contamination)に関連するAIツール
関連用語
「評価指標」の他の用語
Massive Multitask Language Understanding。 57 分野・1.5 万問の LLM 知識評価ベンチマーク。
OpenAI 発の Python コーディング能力ベンチマーク。 164 問の関数実装タスク。
ユーザー投票による LLM の人間評価ランキング。 Elo レーティングで モデルを順位付け。
ベンチマークとは、AIモデルの性能を標準化されたテスト課題で数値化し、異なるモデル間を公平に比較するための評価基準セットのこと。MMLUやHumanEval等、用途別に数十種類が存在する。
SWE-benchとはGitHubの実際のIssueをAIが自動修正できるかを測る、コーディングAI評価の業界標準ベンチマークのこと。
GPQAとは、生物・物理・化学の大学院レベルの難問でAIの推論力を測る評価ベンチマークのこと。Googleで検索しても解けない設計が特徴。
AI用語辞典をすべて見てみませんか
12カテゴリ・152語以上を体系的に整理しています
辞典トップへ