AI PICKS
AI用語辞典評価指標

ARC-AGI (汎用推論ベンチ)

読み: えーあーるしーえーじーあい

最終更新: 2026-06-26・AI PICKS編集部

定義

ARC-AGIとは、François Cholletが設計したAIの汎用推論能力を測る公開ベンチマークのこと。人間には自明な図形パターン推論タスクで構成され、AGI到達度の代表指標として業界で広く参照される。

ARC-AGI (汎用推論ベンチ)とは — 詳しく解説

ARC-AGI(Abstraction and Reasoning Corpus for Artificial General Intelligence)は、Kerasの作者François Cholletが2019年に公開したAI評価ベンチマーク。色・形・対称性などの抽象パターンを見て規則を推論するタスクで構成され、人間は平均約85%を正答するが、GPT-4やClaude 3世代のLLMは長年20〜40%台に留まっていた。 2024年末にOpenAIのo3が高コンピューティング条件下で87%超を達成し業界に衝撃を与え、2026年現在はARC-AGI-2が公開されて難易度がさらに引き上げられた状態にある。AI PICKS の実運用観点では重要な落とし穴がある。o3が高スコアを記録した際の推論コストは1問あたり数百〜数千ドル規模とも報告されており、現場でのAPI利用コストの相場感とは完全に乖離している。スコアが高いモデルでも自社ユースケース(コード生成・文書要約・データ抽出)では期待を下回るケースは多く、ARC-AGIの数値だけで採用モデルを決定するのはリスクが高い。2026年時点での選び方として、ARC-AGIは「抽象推論の上限能力の参考値」として使い、実際の判断は自社タスクで独自評価するのが現場の標準になっている。

ARC-AGI (汎用推論ベンチ)の使用例

  • o3のARC-AGI高スコアは超大量コンピューティングが前提。API経由の実用コストとは別次元の話として、現場のモデル選定では切り分けて考える必要がある。
  • 自社でARC-AGI類似の推論タスクを社内データで作成し、候補モデルを横比較する「自家製ミニベンチ」を用意すると採用判断の精度が上がる。

ARC-AGI (汎用推論ベンチ)に関連するAIツール

関連用語

評価指標」の他の用語

AI用語辞典をすべて見てみませんか

12カテゴリ・152語以上を体系的に整理しています

辞典トップへ