Question 1

ベンチマーク汚染 (Benchmark Contamination)とは何ですか？

Accepted Answer

ベンチマーク汚染とは、AIモデルの訓練データにテスト用評価データが混入し、性能スコアが実際の能力より高く見える現象のこと。 ベンチマーク汚染は、LLMや機械学習モデルの評価において深刻な問題となっている。モデルの事前学習データにMMLUやHumanEvalといった公開評価セットが含まれると、モデルは問題文と正解を「記憶」してしまい、実際の推論能力を超えたスコアを記録する。2026年現在、主要LLMのリーダーボードへの不信感は業界全体に広がっており、現場では「公開ベンチマークより自社ユースケースで実測する」という判断軸が

Question 2

ベンチマーク汚染 (Benchmark Contamination)の使い方や活用例を教えてください

Accepted Answer

代表的な活用例は次のとおりです。「MMLUスコア90%超のモデルが社内法務タスクでは60%台」—公開ベンチの過大評価が本番で露呈した典型例。 / 新モデル導入前に非公開の社内QAセット100問で実測し、公開スコア3位のモデルが最高精度を記録した事例。詳細な解説はベンチマーク汚染 (Benchmark Contamination)の詳細ページをご覧ください。

Question 3

ベンチマーク汚染 (Benchmark Contamination)とLLM (大規模言語モデル)の違いは何ですか？

Accepted Answer

ベンチマーク汚染 (Benchmark Contamination)とLLM (大規模言語モデル)はAI用語として関連していますが、役割や使用場面が異なります。ベンチマーク汚染 (Benchmark Contamination)はベンチマーク汚染とは、AIモデルの訓練データにテスト用評価データが混入し、性能スコアが実際の能力より高く見える現象のこと。詳しくは関連用語の解説ページをご参照ください。

ベンチマーク汚染 (Benchmark Contamination)

定義

ベンチマーク汚染 (Benchmark Contamination)とは — 詳しく解説

ベンチマーク汚染 (Benchmark Contamination)の使用例

ベンチマーク汚染 (Benchmark Contamination)に関連するAIツール

関連用語

「評価指標」の他の用語

AI用語辞典をすべて見てみませんか