AI PICKS
AI用語辞典評価指標

AIME (数学ベンチマーク)

読み: えーあいえむいー

最終更新: 2026-06-26・AI PICKS編集部

定義

AIMEとは、米国の難関数学競技試験「アメリカ数学招待試験」を転用したAIモデルの高度な数学的推論能力を測るベンチマークのこと。

AIME (数学ベンチマーク)とは — 詳しく解説

AIMEはAmerican Invitational Mathematics Examination(アメリカ数学招待試験)の略で、高校数学オリンピック予選の上位問題群を転用してAIモデルの多段階推論能力を測る業界標準ベンチマーク。問題は整数解(0〜999)形式で、単純な四則演算でなく複合的な論理思考の連鎖を要求するため、LLMの地力が問われる。2024年後半からAI各社がスコアを積極公開し、GPT-4oが約13%、DeepSeek-R1が約72%、OpenAI o3が約88%と、推論特化モデルの実力差を可視化する指標として定着した。2026年現在、Chain-of-Thoughtや強化学習による推論改善の効果検証における現場での基準として広く使われている。AI PICKS実運用上の注意点として、AIME高スコアが財務モデリングや科学計算など実業務の数学タスクを直接保証しない点がある。試験問題への過学習リスクも指摘されており、単一指標でなくMATHやGPQAとの複合評価が推奨される。相場感として、2026年時点でAIME 2024正答率50%超が推論系モデルの上位層とみなされる目安。モデル選定時は試行回数・温度設定など計測条件の違いも必ず確認すること。

AIME (数学ベンチマーク)の使用例

  • GPT-4oとClaude 3.7のAIME 2024スコアを比較し、数学推論タスクに最適なモデルを選定する
  • 自社の数値計算エージェントをAIMEで事前評価し、本番投入前に正答率50%以上を目標設定する

AIME (数学ベンチマーク)に関連するAIツール

関連用語

評価指標」の他の用語

AI用語辞典をすべて見てみませんか

12カテゴリ・152語以上を体系的に整理しています

辞典トップへ