AI PICKS
AI用語辞典評価指標

SWE-bench

読み: えすだぶりゅーいーべんち

最終更新: 2026-06-25・AI PICKS編集部

定義

SWE-benchとはGitHubの実際のIssueをAIが自動修正できるかを測る、コーディングAI評価の業界標準ベンチマークのこと。

SWE-benchとは — 詳しく解説

SWE-benchは、Princeton大学が2023年に公開したオープンソースのコーディング能力評価セット。Python主要OSSリポジトリ(Django・scikit-learn等)から収集した本物のGitHub Issueと対応パッチ2,294件を収録し、AIがテストスイートをパスする修正パッチを自動生成できるかで採点する。精選版「Verified」(500件)は現場でのモデル比較に広く使われる。 AI PICKS調べでは2026年現在、Claude Opus 4がVerifiedスコア約72%でトップ水準、専用コーディング系モデルが汎用より10〜20pt上回る傾向がある。 実運用での落とし穴は3点。①スコア解釈:Full版とVerifiedで15%超の乖離が出るため、発表値がどちらかを必ず確認する。②コスト感:GPT-4o相当で1タスク$0.5〜$2、全量評価で$500〜$2,000が相場感。③Python偏重:TypeScript・Goプロジェクトへのスコアのそのままでの外挿は過信禁物。自社コードベースでの実測と組み合わせた活用を推奨する。

SWE-benchの使用例

  • Verifiedスコア72%のモデルでも自社TypeScriptコードベースでは30%台に落ちた事例がある。Python特化の評価であることを常に念頭に置く。
  • SWE-bench FullとVerifiedでは15%超のスコア乖離が生じるケースがある。ベンダー発表値を比較する際は必ずどちらの評価セットかを確認する。

SWE-benchに関連するAIツール

関連用語

評価指標」の他の用語

AI用語辞典をすべて見てみませんか

12カテゴリ・102語以上を体系的に整理しています

辞典トップへ