AI PICKS
AI用語辞典評価指標

MT-Bench (対話評価ベンチ)

読み: えむてぃーべんち(たいわひょうかべんち)

最終更新: 2026-06-29・AI PICKS編集部

定義

MT-Benchとは、LLMの多段対話能力をGPT-4が自動採点する標準ベンチマークのこと。8カテゴリ80問の2ターン問答で推論・コーディング・作文などを1〜10点で評価する。

MT-Bench (対話評価ベンチ)とは — 詳しく解説

MT-BenchはLMSYS Orgが2023年に公開した多段対話ベンチマーク。ライティング・ロールプレイ・抽出・推論・数学・コーディング・STEM・人文の8カテゴリ、各10問×2ターン計80問の会話で構成され、GPT-4をジャッジに使うLLM-as-a-Judge方式で1〜10点採点する。 2026年時点の実運用で押さえたい落とし穴は3点。①採点コスト:80問をGPT-4oで評価すると1回あたり約$2〜5で、モデル更新のたびに再実行が必要なため年間費用が膨らみやすい。②採点バイアス:GPT-4系が採点すると自系モデルへの甘い傾向(self-enhancement bias)が研究で指摘されており、Claude系との交差検証が現場の定石。③スコア飽和:2023年作成の問題が学習データへ混入し、上限張り付きが起きるカテゴリが増加している。AI PICKSが調査した導入事例でも「MT-Benchスコアは高いが実タスクで負ける」報告が複数あり、Chatbot Arenaとの2軸評価が2026年の相場感となっている。

MT-Bench (対話評価ベンチ)の使用例

  • GPT-4oとClaude 3.5 Sonnetを社内チャットbot候補として比較する際、MT-Benchの推論・コーディング・抽出の3カテゴリスコアを抽出して比較表を作成した。
  • ローカルLLM(Llama 3)でMT-Benchを実施したところ採点APIコストが$3かかり、HumanEval(コード特化)なら$0.1で済むと判明し用途別ベンチ選定を見直した。

MT-Bench (対話評価ベンチ)に関連するAIツール

関連用語

評価指標」の他の用語

AI用語辞典をすべて見てみませんか

12カテゴリ・302語以上を体系的に整理しています

辞典トップへ