AI 用語辞典評価指標
MMLU
読み: えむえむえるゆー
最終更新: 2026-06-05 ・ AI PICKS 編集部
定義
Massive Multitask Language Understanding。 57 分野・1.5 万問の LLM 知識評価ベンチマーク。
MMLU とは — 詳しく解説
MMLU (Massive Multitask Language Understanding) は LLM の知識量を測る代表的ベンチマークで、 57 分野 (数学 / 法律 / 医学 / 歴史 等) の選択式問題 約 1.5 万問。 2026 年現在、 GPT-5 / Claude Opus 4.7 / Gemini Ultra が 89-92% 前後で人間専門家平均 (89.8%) を超えた。 ただし モデルが学習データで MMLU の問題を見ている可能性 (リーク問題) が指摘され、 上位モデル間の比較指標としては飽和。 後継として MMLU-Pro / GPQA が登場している。 AI PICKS では LLM 比較記事で 必ず MMLU + 後継指標を併記している。
MMLU に関連する AI ツール
関連用語
「評価指標」 の他の用語
AI 用語辞典をすべて見てみませんか
12 カテゴリ・ 51 語以上を体系的に整理しています
辞典トップへ