AI PICKS
AI用語辞典評価指標

Humanity's Last Exam (HLE)

読み: ひゅーまにてぃーずらすとえぐざむ

最終更新: 2026-06-28・AI PICKS編集部

定義

HLEとはScale AIとCenter for AI Safety(CAIS)が2025年に公開した、博士課程レベルの難問2,500問でAIの推論限界を測る超難関ベンチマークのこと。

Humanity's Last Exam (HLE)とは — 詳しく解説

Humanity's Last Exam(HLE)は、Scale AIとCenter for AI Safety(CAIS)が2025年1月に公開したAIベンチマーク。数学・物理・化学・生物・歴史・哲学など100以上の専門分野から、検索だけでは解けない「本物の知識と推論」を要する難問2,500問を収録する。問題はすべて検証可能な正解を持ち、専門家でも解けないよう設計されている。 公開当初はGPT-4oやClaude 3.5 Sonnetでも正答率10%未満と低く、「AIが人類の知識の限界にまだ届いていない」ことを示す指標として注目された。2026年現在、フロンティアモデルでも正答率は20〜30%台に留まっており、AGI到達度の現実的な物差しとして実運用・研究現場で広く参照されている。 AI PICKSの現場調査では、HLEスコアを単独ではなく複数ベンチマークの一つとして参照する企業が主流だ。「HLEが高い=業務最適」ではなく、タスク適合度・レイテンシ・APIコストの相場感(高度推論モデルは標準比2〜5倍)も含めて評価するのが2026年の選び方の標準となっている。

Humanity's Last Exam (HLE)の使用例

  • GPT-4oのHLE正答率は約8%(2025年1月)。2026年最新モデルでは同ベンチマークで25%超に改善が見られる。
  • 科学・数学推論が必要な業務でモデルを選定する際、HLEスコアを参照して上位モデルを優先候補にする。

Humanity's Last Exam (HLE)に関連するAIツール

関連用語

評価指標」の他の用語

AI用語辞典をすべて見てみませんか

12カテゴリ・252語以上を体系的に整理しています

辞典トップへ