AI PICKS
AI 用語辞典評価指標

HumanEval

読み: ひゅーまんいばる

最終更新: 2026-06-05 ・ AI PICKS 編集部

定義

OpenAI 発の Python コーディング能力ベンチマーク。 164 問の関数実装タスク。

HumanEval とは — 詳しく解説

HumanEval は OpenAI が 2021 年公開した Python コーディング能力ベンチマークで、 164 問の関数 docstring からコードを生成し、 単体テストを通過するかを評価する。 2026 年現在 上位 LLM は 90% 超 (Claude Opus 4.7 / GPT-5 が 95% 前後) で、 飽和傾向。 後継として SWE-bench (実 GitHub Issue 解決)、 LiveCodeBench (リーク防止 + 月次更新)、 BigCodeBench (複数言語) が主流に。 実運用では HumanEval スコアより 自社の実コードに対する精度を測る方が示唆的、 という認識が現場では共有されている。

HumanEval に関連する AI ツール

関連用語

評価指標」 の他の用語

AI 用語辞典をすべて見てみませんか

12 カテゴリ・ 51 語以上を体系的に整理しています

辞典トップへ