SWE-bench分数越刷越高,但这个benchmark到底在测什么

 · 

SWE-bench已经成了AI编程能力的”高考分数线”——每个新模型发布必报的数字。但这个benchmark到底在考什么?刷到80%以上就意味着AI真的能当程序员了吗?

测试方式

SWE-bench用的是真实GitHub issue。从Django、Flask、Requests、Matplotlib这些知名项目里抽取真实的bug report和feature request,让AI模型生成patch来修复。修完之后跑项目自带的单元测试,通过算成功。

Verified子集有500个任务,每个都在独立Docker容器里执行,确保环境隔离。

当前排行

截至2026年3月:

模型 Verified分数
Claude Opus 4.5 80.9%
Claude Opus 4.6 80.8%
Gemini 3.1 Pro 80.6%
MiniMax M2.5 80.2%
GPT-5.2 80.0%
DeepSeek V3.2-exp 60.0%
Qwen 3 55.0%

头部已经挤到80%以上,尾部还在55-60%。差距很明显。

一个容易被忽视的问题

SWE-bench测的其实是**”模型+脚手架”**的整体表现。不同的agent框架、不同的工具链配置,同一个模型可以跑出差别很大的分数。所以不能简单地看分数就断定”A模型比B强”。

为了应对分数饱和问题,研究者又推出了:

  • SWE-bench PRO:更严格的子集
  • SWE-bench Live:每月更新新题,防止数据污染

从2024年初的30%到2026年的80%+,两年翻了近三倍。进步速度确实吓人,但距离”完全替代程序员”还远得很——这些benchmark测的都是定义明确的单个issue,真正的软件开发中大量时间花在需求理解、架构设计、团队沟通这些benchmark覆盖不到的地方。

参考来源:SWE-bench官方、LocalAIMaster排行榜