SWE-bench分数越刷越高，但这个benchmark到底在测什么

SWE-bench已经成了AI编程能力的”高考分数线”——每个新模型发布必报的数字。但这个benchmark到底在考什么？刷到80%以上就意味着AI真的能当程序员了吗？

测试方式

SWE-bench用的是真实GitHub issue。从Django、Flask、Requests、Matplotlib这些知名项目里抽取真实的bug report和feature request，让AI模型生成patch来修复。修完之后跑项目自带的单元测试，通过算成功。

Verified子集有500个任务，每个都在独立Docker容器里执行，确保环境隔离。

截至2026年3月：

头部已经挤到80%以上，尾部还在55-60%。差距很明显。

SWE-bench测的其实是**”模型+脚手架”**的整体表现。不同的agent框架、不同的工具链配置，同一个模型可以跑出差别很大的分数。所以不能简单地看分数就断定”A模型比B强”。

为了应对分数饱和问题，研究者又推出了：

从2024年初的30%到2026年的80%+，两年翻了近三倍。进步速度确实吓人，但距离”完全替代程序员”还远得很——这些benchmark测的都是定义明确的单个issue，真正的软件开发中大量时间花在需求理解、架构设计、团队沟通这些benchmark覆盖不到的地方。

参考来源：SWE-bench官方、LocalAIMaster排行榜