多くのSWE-bench-Passing PRはマージされないだろう
49日前原文(metr.org)
概要
- SWE-bench Verifiedの自動評価と実際のメンテナーによるマージ基準の乖離を定量化した研究
- 自動評価で合格したAI生成PRの約半数が、実際にはメインブランチにマージされない現実
- 人間開発者のようなフィードバックによる反復がAIには許されていないため、能力限界とは断定しない
- ベンチマークスコアの単純な解釈はAIの有用性を過大評価するリスク
- ベンチマークはAI進歩の一要素に過ぎず、実世界の有用性評価には追加の検討が必要
SWE-bench Verifiedベンチマークと実世界の乖離
- SWE-bench Verifiedで自動評価に合格したAI生成PRのうち、実際にメンテナーがマージを許可する割合は約半分にとどまる現実
- 自動評価は現実のメンテナーによるレビュー基準とは異なり、現実世界での有用性を過大評価する傾向
- 人間開発者はフィードバックを受けて反復的に修正できるが、AIエージェントにはその機会が与えられていない
- 能力限界ではなく、現状のベンチマーク運用方法の問題点として解釈
- ベンチマークスコアをそのまま現実の課題解決率とみなすのは危険
研究方法と設計
- scikit-learn、Sphinx、pytestの3リポジトリ、4名の現役メンテナーを招聘し、計296件のAI生成PRを評価
- ゴールデンパッチ(実際にマージされた人間作成PR)47件も評価し、メンテナー判断のノイズを補正
- AIモデルは主にAnthropic社のClaudeシリーズとGPT-5を対象
- 自動評価合格PRのみメンテナーに提出し、落ちたものはメンテナーも不合格扱いとする仮定
- レビュー基準は受理/修正要求に加え、機能不全・他コード破壊・コード品質の観点で構造化フィードバック
主な結果と考察
- 自動評価合格率に対し、メンテナーマージ率は平均24ポイント低い
- 年次改善率もメンテナーマージ基準では自動評価に比べ9.6ポイント/年遅い傾向
- ゴールデンパッチでもメンテナー合格率は68%にとどまり、主観的要素が「最後の一押し」に影響
- 80%以上進捗したと評価されるPRは85%と高いが、最終マージには追加要件や主観が関与
ベンチマークの限界と今後の示唆
- AIモデルは1回のみ提出、人間はフィードバックで反復修正できる構造
- ベンチマークの単純な数値解釈は誤解を招く可能性
- 現実世界での有用性評価には、より精緻なフィードバック誘導や人間との協働設計が必要
- AI進歩予測や社会的インパクト評価には、ベンチマークは参考情報の一要素として扱うべき
研究の進展点と今後の展望
- 前回調査よりも多様なモデル・課題・現役メンテナー参加で信頼性向上
- ベンチマーク合格=「現実で使えるAI」ではないことを定量的に示した意義
- 今後は反復フィードバックを組み込んだAI評価や、より多様なリポジトリでの検証が必要