Question 1

GPQAとは何ですか？

Accepted Answer

GPQAとは、生物・物理・化学の大学院レベルの難問でAIの推論力を測る評価ベンチマークのこと。Googleで検索しても解けない設計が特徴。 GPQA（Graduate-Level Google-Proof Q&A）は、Anthropic・Google・OpenAIなど主要AI研究機関が参照する難易度特化型ベンチマーク。生物・物理・化学の大学院レベル問題で構成され、Web検索に頼れない「純粋な推論力」を測る点が他ベンチマークと異なる。人間の専門家でも正答率は約65%程度にとどまり、最難関サブセット「GPQA Diamond」がフロンティ

Question 2

GPQAの使い方や活用例を教えてください

Accepted Answer

代表的な活用例は次のとおりです。Claude 3.7 SonnetのGPQA Diamondスコアは約70%台。高度な科学的推論が必要な研究支援用途のモデル選定で参照される。 / モデル選定時にGPQAスコアだけで判断すると実務で期待外れになりやすい。自社タスクでの独自評価と必ず併用すること。詳細な解説はGPQAの詳細ページをご覧ください。

Question 3

GPQAとLLM (大規模言語モデル)の違いは何ですか？

Accepted Answer

GPQAとLLM (大規模言語モデル)はAI用語として関連していますが、役割や使用場面が異なります。GPQAはGPQAとは、生物・物理・化学の大学院レベルの難問でAIの推論力を測る評価ベンチマークのこと。Googleで検索しても解けない設計が特徴。詳しくは関連用語の解説ページをご参照ください。

GPQA

定義

GPQAとは — 詳しく解説

GPQAの使用例

GPQAに関連するAIツール

関連用語

「評価指標」の他の用語

AI用語辞典をすべて見てみませんか