SWE-bench
読み: えすだぶりゅーいーべんち
最終更新: 2026-06-25・AI PICKS編集部
定義
SWE-benchとはGitHubの実際のIssueをAIが自動修正できるかを測る、コーディングAI評価の業界標準ベンチマークのこと。
SWE-benchとは — 詳しく解説
SWE-benchは、Princeton大学が2023年に公開したオープンソースのコーディング能力評価セット。Python主要OSSリポジトリ(Django・scikit-learn等)から収集した本物のGitHub Issueと対応パッチ2,294件を収録し、AIがテストスイートをパスする修正パッチを自動生成できるかで採点する。精選版「Verified」(500件)は現場でのモデル比較に広く使われる。 AI PICKS調べでは2026年現在、Claude Opus 4がVerifiedスコア約72%でトップ水準、専用コーディング系モデルが汎用より10〜20pt上回る傾向がある。 実運用での落とし穴は3点。①スコア解釈:Full版とVerifiedで15%超の乖離が出るため、発表値がどちらかを必ず確認する。②コスト感:GPT-4o相当で1タスク$0.5〜$2、全量評価で$500〜$2,000が相場感。③Python偏重:TypeScript・Goプロジェクトへのスコアのそのままでの外挿は過信禁物。自社コードベースでの実測と組み合わせた活用を推奨する。
SWE-benchの使用例
- Verifiedスコア72%のモデルでも自社TypeScriptコードベースでは30%台に落ちた事例がある。Python特化の評価であることを常に念頭に置く。
- SWE-bench FullとVerifiedでは15%超のスコア乖離が生じるケースがある。ベンダー発表値を比較する際は必ずどちらの評価セットかを確認する。
SWE-benchに関連するAIツール
関連用語
「評価指標」の他の用語
Massive Multitask Language Understanding。 57 分野・1.5 万問の LLM 知識評価ベンチマーク。
OpenAI 発の Python コーディング能力ベンチマーク。 164 問の関数実装タスク。
ユーザー投票による LLM の人間評価ランキング。 Elo レーティングで モデルを順位付け。
ベンチマークとは、AIモデルの性能を標準化されたテスト課題で数値化し、異なるモデル間を公平に比較するための評価基準セットのこと。MMLUやHumanEval等、用途別に数十種類が存在する。
GPQAとは、生物・物理・化学の大学院レベルの難問でAIの推論力を測る評価ベンチマークのこと。Googleで検索しても解けない設計が特徴。
レイテンシとは、AIモデルにリクエストを送信してから最初のレスポンスが返るまでの応答時間のこと。
AI用語辞典をすべて見てみませんか
12カテゴリ・102語以上を体系的に整理しています
辞典トップへ