AI用語辞典評価指標

MMLU

読み: えむえむえるゆー

最終更新: 2026-06-05・AI PICKS編集部

定義

Massive Multitask Language Understanding。 57 分野・1.5 万問の LLM 知識評価ベンチマーク。

MMLUとは — 詳しく解説

MMLU (Massive Multitask Language Understanding) は LLM の知識量を測る代表的ベンチマークで、 57 分野 (数学 / 法律 / 医学 / 歴史等) の選択式問題約 1.5 万問。 2026 年現在、 GPT-5 / Claude Opus 4.7 / Gemini Ultra が 89-92% 前後で人間専門家平均 (89.8%) を超えた。ただしモデルが学習データで MMLU の問題を見ている可能性 (リーク問題) が指摘され、上位モデル間の比較指標としては飽和。後継として MMLU-Pro / GPQA が登場している。 AI PICKS では LLM 比較記事で必ず MMLU + 後継指標を併記している。

MMLUに関連するAIツール

4.65フリーミアム

4.65フリーミアム

4.65フリーミアム

関連用語

LLM (大規模言語モデル)HumanEval LM Arena (Chatbot Arena)

「評価指標」の他の用語

OpenAI 発の Python コーディング能力ベンチマーク。 164 問の関数実装タスク。

LM Arena (Chatbot Arena)

ユーザー投票による LLM の人間評価ランキング。 Elo レーティングでモデルを順位付け。

ベンチマーク (Benchmark)

ベンチマークとは、AIモデルの性能を標準化されたテスト課題で数値化し、異なるモデル間を公平に比較するための評価基準セットのこと。MMLUやHumanEval等、用途別に数十種類が存在する。

SWE-benchとはGitHubの実際のIssueをAIが自動修正できるかを測る、コーディングAI評価の業界標準ベンチマークのこと。

GPQAとは、生物・物理・化学の大学院レベルの難問でAIの推論力を測る評価ベンチマークのこと。Googleで検索しても解けない設計が特徴。

レイテンシ (Latency)

レイテンシとは、AIモデルにリクエストを送信してから最初のレスポンスが返るまでの応答時間のこと。

AI用語辞典をすべて見てみませんか

12カテゴリ・713語以上を体系的に整理しています

辞典トップへ