Question 1

MT-Bench (対話評価ベンチ)とは何ですか？

Accepted Answer

MT-Benchとは、LLMの多段対話能力をGPT-4が自動採点する標準ベンチマークのこと。8カテゴリ80問の2ターン問答で推論・コーディング・作文などを1〜10点で評価する。 MT-BenchはLMSYS Orgが2023年に公開した多段対話ベンチマーク。ライティング・ロールプレイ・抽出・推論・数学・コーディング・STEM・人文の8カテゴリ、各10問×2ターン計80問の会話で構成され、GPT-4をジャッジに使うLLM-as-a-Judge方式で1〜10点採点する。

2026年時点の実運用で押さえたい落とし穴は3点。①採点コスト：80問をGPT-4oで評価すると1回あた

Question 2

MT-Bench (対話評価ベンチ)の使い方や活用例を教えてください

Accepted Answer

代表的な活用例は次のとおりです。GPT-4oとClaude 3.5 Sonnetを社内チャットbot候補として比較する際、MT-Benchの推論・コーディング・抽出の3カテゴリスコアを抽出して比較表を作成した。 / ローカルLLM（Llama 3）でMT-Benchを実施したところ採点APIコストが$3かかり、HumanEval（コード特化）なら$0.1で済むと判明し用途別ベンチ選定を見直した。詳細な解説はMT-Bench (対話評価ベンチ)の詳細ページをご覧ください。

Question 3

MT-Bench (対話評価ベンチ)とLLM (大規模言語モデル)の違いは何ですか？

Accepted Answer

MT-Bench (対話評価ベンチ)とLLM (大規模言語モデル)はAI用語として関連していますが、役割や使用場面が異なります。MT-Bench (対話評価ベンチ)はMT-Benchとは、LLMの多段対話能力をGPT-4が自動採点する標準ベンチマークのこと。8カテゴリ80問の2ターン問答で推論・コーディング・作文などを1〜10点で評価する。詳しくは関連用語の解説ページをご参照ください。

MT-Bench (対話評価ベンチ)

定義

MT-Bench (対話評価ベンチ)とは — 詳しく解説

MT-Bench (対話評価ベンチ)の使用例

MT-Bench (対話評価ベンチ)に関連するAIツール

関連用語

「評価指標」の他の用語

AI用語辞典をすべて見てみませんか