AI PICKS
AI用語辞典評価指標

pass@k (コード生成評価指標)

読み: ぱすあっとけー

最終更新: 2026-06-27・AI PICKS編集部

定義

pass@kとはコード生成AIが生成したk個のコードサンプルのうち、少なくとも1つが全ユニットテストを通過する確率を示す評価指標のこと。

pass@k (コード生成評価指標)とは — 詳しく解説

pass@kは、コード生成AIの性能を測る代表的な評価指標。k個のコードサンプルを生成したとき、少なくとも1つが全ユニットテストを通過する確率として定義される。kが1の場合(pass@1)は「1発で正解できる確率」、kが10や100の場合は「何度か試せば通る確率」を表し、モデルの信頼性と生成の多様性を同時に評価できる。 2026年の実運用では、pass@1だけを評価軸にするのは危険という認識が現場に定着しつつある。GitHub CopilotやCursorのような補完ツールはユーザーが複数提案をリジェクトしながら使う前提があるため、pass@5〜10の方が体験実態に近い。一方、完全自律型コーディングエージェントではpass@1での信頼性が採否の分かれ目になる。 コスト面では、pass@kの計測にはk×問題数分の推論費用がかかる。HumanEval(164問)でk=100を回すとGPT-4相当のモデルでも数万円規模になるため、AI PICKSが把握する相場感として「小規模選定はk=5、精密ベンチマークはk=20」が現場の落とし所だ。MBPPやHumanEval+など難化したベンチマークも普及し、単純なpass@k値だけでなくエラー内訳まで見るのが2026年の標準的な評価フローとなっている。

pass@k (コード生成評価指標)の使用例

  • HumanEval 164問でpass@1を計測したところGPT-4oは87%を達成。補完用途ではpass@5が実態に近い参考値として活用される事例が多い。
  • 社内コード補完ツール選定でpass@10を比較評価。k倍のAPI費用を考慮し最終的にk=5で各モデルをベンチマークして導入モデルを決定した。

pass@k (コード生成評価指標)に関連するAIツール

関連用語

評価指標」の他の用語

AI用語辞典をすべて見てみませんか

12カテゴリ・202語以上を体系的に整理しています

辞典トップへ