MMMU (マルチモーダル理解ベンチ)
読み: えむえむえむゆー
最終更新: 2026-06-27・AI PICKS編集部
定義
MMMUとはテキストと画像を組み合わせた大学レベルの専門問題でマルチモーダルAIの総合理解力を測るベンチマークのこと。医学・法律・工学など30以上の学術分野の11,500問以上で構成される。
MMMU (マルチモーダル理解ベンチ)とは — 詳しく解説
MMMU(Massive Multitask Multimodal Understanding)は、画像・図表・テキストを組み合わせた大学レベルの問題をAIに解かせることで、マルチモーダルモデルの複合推論能力を評価するベンチマーク。単純な物体認識ではなく、専門知識に基づく多段階推論を要求する点が従来の視覚ベンチマークと異なる。 2026年時点の実運用でAI PICKSが現場取材で把握している相場感は、GPT-4o・Claude 3.5 Sonnet・Gemini 1.5 Proがいずれもスコア60〜70%台で競合しており、人間専門家水準(86%)との差はまだ大きい。落とし穴として多いのが「全体スコアで比較して終わり」というミスで、業務に近い学術分野のサブカテゴリスコアを確認しないと、実際の精度と乖離する事例が続出している。とくに日本語テキストが含まれる図解や、医療・法律分野の専門図表では全体スコアより10〜20ポイント落ちるケースも珍しくない。ツール選定時は、自社ユースケースに対応する分野のサブスコアと、評価に要する推論コスト(1バッチ数百〜数千円規模になりうる)を合わせて判断することが現場での正しいアプローチだ。
MMMU (マルチモーダル理解ベンチ)の使用例
- ツール比較時:「このモデルのMMMUスコアは?医療画像サブカテゴリのスコアも確認してください」
- 2026年現在、Claude 3.5 SonnetはMMMU全体約70%台。工学・図表読み取り分野で比較優位あり。
MMMU (マルチモーダル理解ベンチ)に関連するAIツール
関連用語
「評価指標」の他の用語
Massive Multitask Language Understanding。 57 分野・1.5 万問の LLM 知識評価ベンチマーク。
OpenAI 発の Python コーディング能力ベンチマーク。 164 問の関数実装タスク。
ユーザー投票による LLM の人間評価ランキング。 Elo レーティングで モデルを順位付け。
ベンチマークとは、AIモデルの性能を標準化されたテスト課題で数値化し、異なるモデル間を公平に比較するための評価基準セットのこと。MMLUやHumanEval等、用途別に数十種類が存在する。
SWE-benchとはGitHubの実際のIssueをAIが自動修正できるかを測る、コーディングAI評価の業界標準ベンチマークのこと。
GPQAとは、生物・物理・化学の大学院レベルの難問でAIの推論力を測る評価ベンチマークのこと。Googleで検索しても解けない設計が特徴。
AI用語辞典をすべて見てみませんか
12カテゴリ・202語以上を体系的に整理しています
辞典トップへ