Humanity's Last Exam (HLE)
読み: ひゅーまにてぃーずらすとえぐざむ
最終更新: 2026-06-28・AI PICKS編集部
定義
HLEとはScale AIとCenter for AI Safety(CAIS)が2025年に公開した、博士課程レベルの難問2,500問でAIの推論限界を測る超難関ベンチマークのこと。
Humanity's Last Exam (HLE)とは — 詳しく解説
Humanity's Last Exam(HLE)は、Scale AIとCenter for AI Safety(CAIS)が2025年1月に公開したAIベンチマーク。数学・物理・化学・生物・歴史・哲学など100以上の専門分野から、検索だけでは解けない「本物の知識と推論」を要する難問2,500問を収録する。問題はすべて検証可能な正解を持ち、専門家でも解けないよう設計されている。 公開当初はGPT-4oやClaude 3.5 Sonnetでも正答率10%未満と低く、「AIが人類の知識の限界にまだ届いていない」ことを示す指標として注目された。2026年現在、フロンティアモデルでも正答率は20〜30%台に留まっており、AGI到達度の現実的な物差しとして実運用・研究現場で広く参照されている。 AI PICKSの現場調査では、HLEスコアを単独ではなく複数ベンチマークの一つとして参照する企業が主流だ。「HLEが高い=業務最適」ではなく、タスク適合度・レイテンシ・APIコストの相場感(高度推論モデルは標準比2〜5倍)も含めて評価するのが2026年の選び方の標準となっている。
Humanity's Last Exam (HLE)の使用例
- GPT-4oのHLE正答率は約8%(2025年1月)。2026年最新モデルでは同ベンチマークで25%超に改善が見られる。
- 科学・数学推論が必要な業務でモデルを選定する際、HLEスコアを参照して上位モデルを優先候補にする。
Humanity's Last Exam (HLE)に関連するAIツール
関連用語
「評価指標」の他の用語
Massive Multitask Language Understanding。 57 分野・1.5 万問の LLM 知識評価ベンチマーク。
OpenAI 発の Python コーディング能力ベンチマーク。 164 問の関数実装タスク。
ユーザー投票による LLM の人間評価ランキング。 Elo レーティングで モデルを順位付け。
ベンチマークとは、AIモデルの性能を標準化されたテスト課題で数値化し、異なるモデル間を公平に比較するための評価基準セットのこと。MMLUやHumanEval等、用途別に数十種類が存在する。
SWE-benchとはGitHubの実際のIssueをAIが自動修正できるかを測る、コーディングAI評価の業界標準ベンチマークのこと。
GPQAとは、生物・物理・化学の大学院レベルの難問でAIの推論力を測る評価ベンチマークのこと。Googleで検索しても解けない設計が特徴。
AI用語辞典をすべて見てみませんか
12カテゴリ・252語以上を体系的に整理しています
辞典トップへ