Question 1

Humanity's Last Exam (HLE)とは何ですか？

Accepted Answer

HLEとはScale AIとCenter for AI Safety（CAIS）が2025年に公開した、博士課程レベルの難問2,500問でAIの推論限界を測る超難関ベンチマークのこと。 Humanity's Last Exam（HLE）は、Scale AIとCenter for AI Safety（CAIS）が2025年1月に公開したAIベンチマーク。数学・物理・化学・生物・歴史・哲学など100以上の専門分野から、検索だけでは解けない「本物の知識と推論」を要する難問2,500問を収録する。問題はすべて検証可能な正解を持ち、専門家でも解けないよう設計されている。

公開当初はGPT

Question 2

Humanity's Last Exam (HLE)の使い方や活用例を教えてください

Accepted Answer

代表的な活用例は次のとおりです。GPT-4oのHLE正答率は約8%（2025年1月）。2026年最新モデルでは同ベンチマークで25%超に改善が見られる。 / 科学・数学推論が必要な業務でモデルを選定する際、HLEスコアを参照して上位モデルを優先候補にする。詳細な解説はHumanity's Last Exam (HLE)の詳細ページをご覧ください。

Question 3

Humanity's Last Exam (HLE)とLLM (大規模言語モデル)の違いは何ですか？

Accepted Answer

Humanity's Last Exam (HLE)とLLM (大規模言語モデル)はAI用語として関連していますが、役割や使用場面が異なります。Humanity's Last Exam (HLE)はHLEとはScale AIとCenter for AI Safety（CAIS）が2025年に公開した、博士課程レベルの難問2,500問でAIの推論限界を測る超難関ベンチマークのこと。詳しくは関連用語の解説ページをご参照ください。

Humanity's Last Exam (HLE)

定義

Humanity's Last Exam (HLE)とは — 詳しく解説

Humanity's Last Exam (HLE)の使用例

Humanity's Last Exam (HLE)に関連するAIツール

関連用語

「評価指標」の他の用語

AI用語辞典をすべて見てみませんか