AIME (数学ベンチマーク)
読み: えーあいえむいー
最終更新: 2026-06-26・AI PICKS編集部
定義
AIMEとは、米国の難関数学競技試験「アメリカ数学招待試験」を転用したAIモデルの高度な数学的推論能力を測るベンチマークのこと。
AIME (数学ベンチマーク)とは — 詳しく解説
AIMEはAmerican Invitational Mathematics Examination(アメリカ数学招待試験)の略で、高校数学オリンピック予選の上位問題群を転用してAIモデルの多段階推論能力を測る業界標準ベンチマーク。問題は整数解(0〜999)形式で、単純な四則演算でなく複合的な論理思考の連鎖を要求するため、LLMの地力が問われる。2024年後半からAI各社がスコアを積極公開し、GPT-4oが約13%、DeepSeek-R1が約72%、OpenAI o3が約88%と、推論特化モデルの実力差を可視化する指標として定着した。2026年現在、Chain-of-Thoughtや強化学習による推論改善の効果検証における現場での基準として広く使われている。AI PICKS実運用上の注意点として、AIME高スコアが財務モデリングや科学計算など実業務の数学タスクを直接保証しない点がある。試験問題への過学習リスクも指摘されており、単一指標でなくMATHやGPQAとの複合評価が推奨される。相場感として、2026年時点でAIME 2024正答率50%超が推論系モデルの上位層とみなされる目安。モデル選定時は試行回数・温度設定など計測条件の違いも必ず確認すること。
AIME (数学ベンチマーク)の使用例
- GPT-4oとClaude 3.7のAIME 2024スコアを比較し、数学推論タスクに最適なモデルを選定する
- 自社の数値計算エージェントをAIMEで事前評価し、本番投入前に正答率50%以上を目標設定する
AIME (数学ベンチマーク)に関連するAIツール
関連用語
「評価指標」の他の用語
Massive Multitask Language Understanding。 57 分野・1.5 万問の LLM 知識評価ベンチマーク。
OpenAI 発の Python コーディング能力ベンチマーク。 164 問の関数実装タスク。
ユーザー投票による LLM の人間評価ランキング。 Elo レーティングで モデルを順位付け。
ベンチマークとは、AIモデルの性能を標準化されたテスト課題で数値化し、異なるモデル間を公平に比較するための評価基準セットのこと。MMLUやHumanEval等、用途別に数十種類が存在する。
SWE-benchとはGitHubの実際のIssueをAIが自動修正できるかを測る、コーディングAI評価の業界標準ベンチマークのこと。
GPQAとは、生物・物理・化学の大学院レベルの難問でAIの推論力を測る評価ベンチマークのこと。Googleで検索しても解けない設計が特徴。
AI用語辞典をすべて見てみませんか
12カテゴリ・152語以上を体系的に整理しています
辞典トップへ