Question 1

SWE-benchとは何ですか？

Accepted Answer

SWE-benchとはGitHubの実際のIssueをAIが自動修正できるかを測る、コーディングAI評価の業界標準ベンチマークのこと。 SWE-benchは、Princeton大学が2023年に公開したオープンソースのコーディング能力評価セット。Python主要OSSリポジトリ（Django・scikit-learn等）から収集した本物のGitHub Issueと対応パッチ2,294件を収録し、AIがテストスイートをパスする修正パッチを自動生成できるかで採点する。精選版「Verified」（500件）は現場でのモデル比較に広く使わ

Question 2

SWE-benchの使い方や活用例を教えてください

Accepted Answer

代表的な活用例は次のとおりです。Verifiedスコア72%のモデルでも自社TypeScriptコードベースでは30%台に落ちた事例がある。Python特化の評価であることを常に念頭に置く。 / SWE-bench FullとVerifiedでは15%超のスコア乖離が生じるケースがある。ベンダー発表値を比較する際は必ずどちらの評価セットかを確認する。詳細な解説はSWE-benchの詳細ページをご覧ください。

Question 3

SWE-benchとAI コーディングの違いは何ですか？

Accepted Answer

SWE-benchとAI コーディングはAI用語として関連していますが、役割や使用場面が異なります。SWE-benchはSWE-benchとはGitHubの実際のIssueをAIが自動修正できるかを測る、コーディングAI評価の業界標準ベンチマークのこと。詳しくは関連用語の解説ページをご参照ください。

SWE-bench

定義

SWE-benchとは — 詳しく解説

SWE-benchの使用例

SWE-benchに関連するAIツール

関連用語

「評価指標」の他の用語

AI用語辞典をすべて見てみませんか