Question 1

ベンチマーク (Benchmark)とは何ですか？

Accepted Answer

ベンチマークとは、AIモデルの性能を標準化されたテスト課題で数値化し、異なるモデル間を公平に比較するための評価基準セットのこと。MMLUやHumanEval等、用途別に数十種類が存在する。 ベンチマークはAI研究・開発において不可欠な評価フレームワーク。代表例として、言語理解の総合評価に使われるMMLU（14,000問以上）、コード生成精度を測るHumanEval、数学的推論を問うGSM8Kなどがある。

2026年時点の実運用では、いくつかの落とし穴が顕在化している。第一に「リークバイアス」問題。主要ベンチマークのデータが学習データに混入し、スコアが実性能を過大評価するケースが増加

Question 2

ベンチマーク (Benchmark)の使い方や活用例を教えてください

Accepted Answer

代表的な活用例は次のとおりです。GPT-4oとClaude 3.5のMMLUスコアを比較し、法律文書要約タスク向けモデルを選定する際のベンチマーク活用の典型例。 / 自社コールセンターログ50件を評価セットとして作成し、複数LLMの日本語応答品質をAPIコスト$30以内で比較評価する実践例。詳細な解説はベンチマーク (Benchmark)の詳細ページをご覧ください。

Question 3

ベンチマーク (Benchmark)とLLM (大規模言語モデル)の違いは何ですか？

Accepted Answer

ベンチマーク (Benchmark)とLLM (大規模言語モデル)はAI用語として関連していますが、役割や使用場面が異なります。ベンチマーク (Benchmark)はベンチマークとは、AIモデルの性能を標準化されたテスト課題で数値化し、異なるモデル間を公平に比較するための評価基準セットのこと。MMLUやHumanEval等、用途別に数十種類が存在する。詳しくは関連用語の解説ページをご参照ください。

ベンチマーク (Benchmark)

定義

ベンチマーク (Benchmark)とは — 詳しく解説

ベンチマーク (Benchmark)の使用例

ベンチマーク (Benchmark)に関連するAIツール

関連用語

「評価指標」の他の用語

AI用語辞典をすべて見てみませんか