GAIA (汎用AIアシスタントベンチ)
読み: がいあ
最終更新: 2026-06-30・AI PICKS編集部
定義
GAIAとはMeta AIらが開発した汎用AIアシスタント向けの難易度別評価ベンチマークのこと。実世界の複合タスクをどこまで正確に解けるかを多段階で測る。
GAIA (汎用AIアシスタントベンチ)とは — 詳しく解説
GAIA(General AI Assistants)は、Meta AI・HuggingFace・AutoGPTの研究者が2023年に発表した汎用AIアシスタント評価ベンチマーク。難易度をLevel 1〜3に分類し、Level 3はトップモデルでも正答率が10〜30%に留まるほど高難度だ。 2026年時点の実運用では、GAIAスコアがモデル採用の参考指標として定着しつつある。ただし現場での落とし穴は「ベンチ上位=自社用途で優秀」という誤解だ。GAIAはWeb検索・ファイル読解・数値計算を組み合わせたマルチステップタスクが主体で、スタンドアロンLLM単体ではなくツール呼び出し込みのエージェント構成が前提となる。相場感としては、上位モデルのLevel 2正答率は60〜75%程度。 AI PICKSの事例でも、GAIAスコアを見ずにシングルターン能力だけでモデルを採用し、現場で複合タスクが破綻するケースが後を絶たない。導入前に自社タスクのステップ数とGAIA Level設計を照合することが選び方の第一歩だ。
GAIA (汎用AIアシスタントベンチ)の使用例
- 「複数LLMのGAIA Level 2スコアを比べてモデル採用を決めたい」— Level別正答率と自社タスクのステップ数を照合すること。
- 「GAIA Level 3レベルの難問に対応したい」— 単体LLMでなくツール呼び出し込みのエージェント構成が前提になる。
GAIA (汎用AIアシスタントベンチ)に関連するAIツール
関連用語
「評価指標」の他の用語
Massive Multitask Language Understanding。 57 分野・1.5 万問の LLM 知識評価ベンチマーク。
OpenAI 発の Python コーディング能力ベンチマーク。 164 問の関数実装タスク。
ユーザー投票による LLM の人間評価ランキング。 Elo レーティングで モデルを順位付け。
ベンチマークとは、AIモデルの性能を標準化されたテスト課題で数値化し、異なるモデル間を公平に比較するための評価基準セットのこと。MMLUやHumanEval等、用途別に数十種類が存在する。
SWE-benchとはGitHubの実際のIssueをAIが自動修正できるかを測る、コーディングAI評価の業界標準ベンチマークのこと。
GPQAとは、生物・物理・化学の大学院レベルの難問でAIの推論力を測る評価ベンチマークのこと。Googleで検索しても解けない設計が特徴。
AI用語辞典をすべて見てみませんか
12カテゴリ・352語以上を体系的に整理しています
辞典トップへ