MT-Bench (対話評価ベンチ)
読み: えむてぃーべんち(たいわひょうかべんち)
最終更新: 2026-06-29・AI PICKS編集部
定義
MT-Benchとは、LLMの多段対話能力をGPT-4が自動採点する標準ベンチマークのこと。8カテゴリ80問の2ターン問答で推論・コーディング・作文などを1〜10点で評価する。
MT-Bench (対話評価ベンチ)とは — 詳しく解説
MT-BenchはLMSYS Orgが2023年に公開した多段対話ベンチマーク。ライティング・ロールプレイ・抽出・推論・数学・コーディング・STEM・人文の8カテゴリ、各10問×2ターン計80問の会話で構成され、GPT-4をジャッジに使うLLM-as-a-Judge方式で1〜10点採点する。 2026年時点の実運用で押さえたい落とし穴は3点。①採点コスト:80問をGPT-4oで評価すると1回あたり約$2〜5で、モデル更新のたびに再実行が必要なため年間費用が膨らみやすい。②採点バイアス:GPT-4系が採点すると自系モデルへの甘い傾向(self-enhancement bias)が研究で指摘されており、Claude系との交差検証が現場の定石。③スコア飽和:2023年作成の問題が学習データへ混入し、上限張り付きが起きるカテゴリが増加している。AI PICKSが調査した導入事例でも「MT-Benchスコアは高いが実タスクで負ける」報告が複数あり、Chatbot Arenaとの2軸評価が2026年の相場感となっている。
MT-Bench (対話評価ベンチ)の使用例
- GPT-4oとClaude 3.5 Sonnetを社内チャットbot候補として比較する際、MT-Benchの推論・コーディング・抽出の3カテゴリスコアを抽出して比較表を作成した。
- ローカルLLM(Llama 3)でMT-Benchを実施したところ採点APIコストが$3かかり、HumanEval(コード特化)なら$0.1で済むと判明し用途別ベンチ選定を見直した。
MT-Bench (対話評価ベンチ)に関連するAIツール
関連用語
「評価指標」の他の用語
Massive Multitask Language Understanding。 57 分野・1.5 万問の LLM 知識評価ベンチマーク。
OpenAI 発の Python コーディング能力ベンチマーク。 164 問の関数実装タスク。
ユーザー投票による LLM の人間評価ランキング。 Elo レーティングで モデルを順位付け。
ベンチマークとは、AIモデルの性能を標準化されたテスト課題で数値化し、異なるモデル間を公平に比較するための評価基準セットのこと。MMLUやHumanEval等、用途別に数十種類が存在する。
SWE-benchとはGitHubの実際のIssueをAIが自動修正できるかを測る、コーディングAI評価の業界標準ベンチマークのこと。
GPQAとは、生物・物理・化学の大学院レベルの難問でAIの推論力を測る評価ベンチマークのこと。Googleで検索しても解けない設計が特徴。
AI用語辞典をすべて見てみませんか
12カテゴリ・302語以上を体系的に整理しています
辞典トップへ