HumanEval

Q: HumanEvalとは何ですか？

OpenAI 発の Python コーディング能力ベンチマーク。 164 問の関数実装タスク。HumanEval は OpenAI が 2021 年公開した Python コーディング能力ベンチマークで、 164 問の関数 docstring からコードを生成し、 単体テストを通過するかを評価する。 2026 年現在 上位 LLM は 90% 超 (Claude Opus 4.7 / GPT-5 が 95% 前後) で、 飽和傾向。

読み: ひゅーまんいばる

最終更新: 2026-06-05・AI PICKS編集部

定義

OpenAI 発の Python コーディング能力ベンチマーク。 164 問の関数実装タスク。

HumanEvalとは — 詳しく解説

HumanEval は OpenAI が 2021 年公開した Python コーディング能力ベンチマークで、 164 問の関数 docstring からコードを生成し、単体テストを通過するかを評価する。 2026 年現在上位 LLM は 90% 超 (Claude Opus 4.7 / GPT-5 が 95% 前後) で、飽和傾向。後継として SWE-bench (実 GitHub Issue 解決)、 LiveCodeBench (リーク防止 + 月次更新)、 BigCodeBench (複数言語) が主流に。実運用では HumanEval スコアより自社の実コードに対する精度を測る方が示唆的、という認識が現場では共有されている。