LiveCodeBench (汚染耐性コードベンチ)
読み: らいぶこーどべんち
最終更新: 2026-06-28・AI PICKS編集部
定義
LiveCodeBenchとは、LeetCodeなどの競技プログラミングサイトから継続的に新問題を収集し、学習データ汚染を排除した条件でLLMのコーディング能力を客観評価するベンチマークのこと。
LiveCodeBench (汚染耐性コードベンチ)とは — 詳しく解説
LiveCodeBenchは2024年にMITらの研究チームが発表したコードLLM評価フレームワーク。HumanEvalやMBPPといった従来ベンチマークは問題が固定されており、モデルの学習データに含まれている(汚染)可能性が高く、スコアが実力を過大評価しやすい欠点があった。LiveCodeBenchはLeetCode・AtCoder・CodeForcesから継続的に新問題を取得し、モデルのカットオフ日以降に公開された問題のみで評価することで汚染リスクを根本的に排除する。2026年時点の実運用では、Claude 3.7 SonnetやGemini 2.5 Proなど主要モデルのコーディング評価指標として定着しており、現場での選び方として「HumanEvalスコアよりLiveCodeBenchスコアを重視する」トレンドが加速している。落とし穴は難易度分布がLeetCode寄りで競技プログラミング特有のアルゴリズム問題が中心なこと——業務コード生成(APIラッパー作成・テストコード等)との乖離がある点は見落としがちだ。相場感としてはフルセット実行にGPT-4o相当で数万円規模のAPIコストがかかる場合もあり、評価コストも無視できない。AI PICKSのコーディングAI比較記事では汚染耐性の観点からLiveCodeBenchを採用し、スコアの信頼性を担保している。
LiveCodeBench (汚染耐性コードベンチ)の使用例
- GPT-4o・Claude 3.7・Gemini 2.5のLiveCodeBenchスコアを比較し、汚染排除後の真のコーディング性能ランキングを確認したい。
- コーディングAI選定時にLiveCodeBenchのカテゴリ別スコア(補完・バグ修正・アルゴリズム)で絞り込む手順を教えて。
LiveCodeBench (汚染耐性コードベンチ)に関連するAIツール
関連用語
「評価指標」の他の用語
Massive Multitask Language Understanding。 57 分野・1.5 万問の LLM 知識評価ベンチマーク。
OpenAI 発の Python コーディング能力ベンチマーク。 164 問の関数実装タスク。
ユーザー投票による LLM の人間評価ランキング。 Elo レーティングで モデルを順位付け。
ベンチマークとは、AIモデルの性能を標準化されたテスト課題で数値化し、異なるモデル間を公平に比較するための評価基準セットのこと。MMLUやHumanEval等、用途別に数十種類が存在する。
SWE-benchとはGitHubの実際のIssueをAIが自動修正できるかを測る、コーディングAI評価の業界標準ベンチマークのこと。
GPQAとは、生物・物理・化学の大学院レベルの難問でAIの推論力を測る評価ベンチマークのこと。Googleで検索しても解けない設計が特徴。
AI用語辞典をすべて見てみませんか
12カテゴリ・252語以上を体系的に整理しています
辞典トップへ