pass@k (コード生成評価指標)
読み: ぱすあっとけー
最終更新: 2026-06-27・AI PICKS編集部
定義
pass@kとはコード生成AIが生成したk個のコードサンプルのうち、少なくとも1つが全ユニットテストを通過する確率を示す評価指標のこと。
pass@k (コード生成評価指標)とは — 詳しく解説
pass@kは、コード生成AIの性能を測る代表的な評価指標。k個のコードサンプルを生成したとき、少なくとも1つが全ユニットテストを通過する確率として定義される。kが1の場合(pass@1)は「1発で正解できる確率」、kが10や100の場合は「何度か試せば通る確率」を表し、モデルの信頼性と生成の多様性を同時に評価できる。 2026年の実運用では、pass@1だけを評価軸にするのは危険という認識が現場に定着しつつある。GitHub CopilotやCursorのような補完ツールはユーザーが複数提案をリジェクトしながら使う前提があるため、pass@5〜10の方が体験実態に近い。一方、完全自律型コーディングエージェントではpass@1での信頼性が採否の分かれ目になる。 コスト面では、pass@kの計測にはk×問題数分の推論費用がかかる。HumanEval(164問)でk=100を回すとGPT-4相当のモデルでも数万円規模になるため、AI PICKSが把握する相場感として「小規模選定はk=5、精密ベンチマークはk=20」が現場の落とし所だ。MBPPやHumanEval+など難化したベンチマークも普及し、単純なpass@k値だけでなくエラー内訳まで見るのが2026年の標準的な評価フローとなっている。
pass@k (コード生成評価指標)の使用例
- HumanEval 164問でpass@1を計測したところGPT-4oは87%を達成。補完用途ではpass@5が実態に近い参考値として活用される事例が多い。
- 社内コード補完ツール選定でpass@10を比較評価。k倍のAPI費用を考慮し最終的にk=5で各モデルをベンチマークして導入モデルを決定した。
pass@k (コード生成評価指標)に関連するAIツール
関連用語
「評価指標」の他の用語
Massive Multitask Language Understanding。 57 分野・1.5 万問の LLM 知識評価ベンチマーク。
OpenAI 発の Python コーディング能力ベンチマーク。 164 問の関数実装タスク。
ユーザー投票による LLM の人間評価ランキング。 Elo レーティングで モデルを順位付け。
ベンチマークとは、AIモデルの性能を標準化されたテスト課題で数値化し、異なるモデル間を公平に比較するための評価基準セットのこと。MMLUやHumanEval等、用途別に数十種類が存在する。
SWE-benchとはGitHubの実際のIssueをAIが自動修正できるかを測る、コーディングAI評価の業界標準ベンチマークのこと。
GPQAとは、生物・物理・化学の大学院レベルの難問でAIの推論力を測る評価ベンチマークのこと。Googleで検索しても解けない設計が特徴。
AI用語辞典をすべて見てみませんか
12カテゴリ・202語以上を体系的に整理しています
辞典トップへ