AI PICKS
AI用語辞典評価指標

ベンチマーク汚染 (Benchmark Contamination)

読み: べんちまーくおせん

最終更新: 2026-06-26・AI PICKS編集部

定義

ベンチマーク汚染とは、AIモデルの訓練データにテスト用評価データが混入し、性能スコアが実際の能力より高く見える現象のこと。

ベンチマーク汚染 (Benchmark Contamination)とは — 詳しく解説

ベンチマーク汚染は、LLMや機械学習モデルの評価において深刻な問題となっている。モデルの事前学習データにMMLUやHumanEvalといった公開評価セットが含まれると、モデルは問題文と正解を「記憶」してしまい、実際の推論能力を超えたスコアを記録する。2026年現在、主要LLMのリーダーボードへの不信感は業界全体に広がっており、現場では「公開ベンチマークより自社ユースケースで実測する」という判断軸が定着しつつある。実運用での最大の落とし穴は、公開スコアを根拠にモデルを選定し、本番導入後にパフォーマンスが大幅に下回るケースだ。AI PICKSでも各ツールの公称スコアよりも、利用者レビューや独自評価を重視しているのはこのためである。対策としては非公開の社内評価セット構築と継続的なモニタリングが有効で、評価セット整備には初期コストとして数十万円規模が必要になることもある。

ベンチマーク汚染 (Benchmark Contamination)の使用例

  • 「MMLUスコア90%超のモデルが社内法務タスクでは60%台」—公開ベンチの過大評価が本番で露呈した典型例。
  • 新モデル導入前に非公開の社内QAセット100問で実測し、公開スコア3位のモデルが最高精度を記録した事例。

ベンチマーク汚染 (Benchmark Contamination)に関連するAIツール

関連用語

評価指標」の他の用語

AI用語辞典をすべて見てみませんか

12カテゴリ・152語以上を体系的に整理しています

辞典トップへ