GPQA
読み: じーぴーきゅーえー
最終更新: 2026-06-25・AI PICKS編集部
定義
GPQAとは、生物・物理・化学の大学院レベルの難問でAIの推論力を測る評価ベンチマークのこと。Googleで検索しても解けない設計が特徴。
GPQAとは — 詳しく解説
GPQA(Graduate-Level Google-Proof Q&A)は、Anthropic・Google・OpenAIなど主要AI研究機関が参照する難易度特化型ベンチマーク。生物・物理・化学の大学院レベル問題で構成され、Web検索に頼れない「純粋な推論力」を測る点が他ベンチマークと異なる。人間の専門家でも正答率は約65%程度にとどまり、最難関サブセット「GPQA Diamond」がフロンティアモデル比較の業界標準として定着している。2026年現在、主要モデルのDiamondスコアはGPT-4oで約50%台、Claude 3.7 Sonnetで約70%台と報告されており、モデル選定の参考値として現場で引用される機会が増えている。ただし実運用での落とし穴として、GPQAはあくまで理系専門知識の推論力指標であり、ビジネス文書作成・コーディング・日本語精度とは相関が低い。AI PICKSでは、GPQAスコアを「頭の良さの参考値」として捉えつつ、自社ユースケースに近いタスクでの独自評価と組み合わせる選び方を推奨している。
GPQAの使用例
- Claude 3.7 SonnetのGPQA Diamondスコアは約70%台。高度な科学的推論が必要な研究支援用途のモデル選定で参照される。
- モデル選定時にGPQAスコアだけで判断すると実務で期待外れになりやすい。自社タスクでの独自評価と必ず併用すること。
GPQAに関連するAIツール
関連用語
「評価指標」の他の用語
Massive Multitask Language Understanding。 57 分野・1.5 万問の LLM 知識評価ベンチマーク。
OpenAI 発の Python コーディング能力ベンチマーク。 164 問の関数実装タスク。
ユーザー投票による LLM の人間評価ランキング。 Elo レーティングで モデルを順位付け。
ベンチマークとは、AIモデルの性能を標準化されたテスト課題で数値化し、異なるモデル間を公平に比較するための評価基準セットのこと。MMLUやHumanEval等、用途別に数十種類が存在する。
SWE-benchとはGitHubの実際のIssueをAIが自動修正できるかを測る、コーディングAI評価の業界標準ベンチマークのこと。
レイテンシとは、AIモデルにリクエストを送信してから最初のレスポンスが返るまでの応答時間のこと。
AI用語辞典をすべて見てみませんか
12カテゴリ・102語以上を体系的に整理しています
辞典トップへ