AI PICKS
AI用語辞典評価指標

GPQA

読み: じーぴーきゅーえー

最終更新: 2026-06-25・AI PICKS編集部

定義

GPQAとは、生物・物理・化学の大学院レベルの難問でAIの推論力を測る評価ベンチマークのこと。Googleで検索しても解けない設計が特徴。

GPQAとは — 詳しく解説

GPQA(Graduate-Level Google-Proof Q&A)は、Anthropic・Google・OpenAIなど主要AI研究機関が参照する難易度特化型ベンチマーク。生物・物理・化学の大学院レベル問題で構成され、Web検索に頼れない「純粋な推論力」を測る点が他ベンチマークと異なる。人間の専門家でも正答率は約65%程度にとどまり、最難関サブセット「GPQA Diamond」がフロンティアモデル比較の業界標準として定着している。2026年現在、主要モデルのDiamondスコアはGPT-4oで約50%台、Claude 3.7 Sonnetで約70%台と報告されており、モデル選定の参考値として現場で引用される機会が増えている。ただし実運用での落とし穴として、GPQAはあくまで理系専門知識の推論力指標であり、ビジネス文書作成・コーディング・日本語精度とは相関が低い。AI PICKSでは、GPQAスコアを「頭の良さの参考値」として捉えつつ、自社ユースケースに近いタスクでの独自評価と組み合わせる選び方を推奨している。

GPQAの使用例

  • Claude 3.7 SonnetのGPQA Diamondスコアは約70%台。高度な科学的推論が必要な研究支援用途のモデル選定で参照される。
  • モデル選定時にGPQAスコアだけで判断すると実務で期待外れになりやすい。自社タスクでの独自評価と必ず併用すること。

GPQAに関連するAIツール

関連用語

評価指標」の他の用語

AI用語辞典をすべて見てみませんか

12カテゴリ・102語以上を体系的に整理しています

辞典トップへ