ARC-AGI (汎用推論ベンチ)
読み: えーあーるしーえーじーあい
最終更新: 2026-06-26・AI PICKS編集部
定義
ARC-AGIとは、François Cholletが設計したAIの汎用推論能力を測る公開ベンチマークのこと。人間には自明な図形パターン推論タスクで構成され、AGI到達度の代表指標として業界で広く参照される。
ARC-AGI (汎用推論ベンチ)とは — 詳しく解説
ARC-AGI(Abstraction and Reasoning Corpus for Artificial General Intelligence)は、Kerasの作者François Cholletが2019年に公開したAI評価ベンチマーク。色・形・対称性などの抽象パターンを見て規則を推論するタスクで構成され、人間は平均約85%を正答するが、GPT-4やClaude 3世代のLLMは長年20〜40%台に留まっていた。 2024年末にOpenAIのo3が高コンピューティング条件下で87%超を達成し業界に衝撃を与え、2026年現在はARC-AGI-2が公開されて難易度がさらに引き上げられた状態にある。AI PICKS の実運用観点では重要な落とし穴がある。o3が高スコアを記録した際の推論コストは1問あたり数百〜数千ドル規模とも報告されており、現場でのAPI利用コストの相場感とは完全に乖離している。スコアが高いモデルでも自社ユースケース(コード生成・文書要約・データ抽出)では期待を下回るケースは多く、ARC-AGIの数値だけで採用モデルを決定するのはリスクが高い。2026年時点での選び方として、ARC-AGIは「抽象推論の上限能力の参考値」として使い、実際の判断は自社タスクで独自評価するのが現場の標準になっている。
ARC-AGI (汎用推論ベンチ)の使用例
- o3のARC-AGI高スコアは超大量コンピューティングが前提。API経由の実用コストとは別次元の話として、現場のモデル選定では切り分けて考える必要がある。
- 自社でARC-AGI類似の推論タスクを社内データで作成し、候補モデルを横比較する「自家製ミニベンチ」を用意すると採用判断の精度が上がる。
ARC-AGI (汎用推論ベンチ)に関連するAIツール
関連用語
「評価指標」の他の用語
Massive Multitask Language Understanding。 57 分野・1.5 万問の LLM 知識評価ベンチマーク。
OpenAI 発の Python コーディング能力ベンチマーク。 164 問の関数実装タスク。
ユーザー投票による LLM の人間評価ランキング。 Elo レーティングで モデルを順位付け。
ベンチマークとは、AIモデルの性能を標準化されたテスト課題で数値化し、異なるモデル間を公平に比較するための評価基準セットのこと。MMLUやHumanEval等、用途別に数十種類が存在する。
SWE-benchとはGitHubの実際のIssueをAIが自動修正できるかを測る、コーディングAI評価の業界標準ベンチマークのこと。
GPQAとは、生物・物理・化学の大学院レベルの難問でAIの推論力を測る評価ベンチマークのこと。Googleで検索しても解けない設計が特徴。
AI用語辞典をすべて見てみませんか
12カテゴリ・152語以上を体系的に整理しています
辞典トップへ