SWE-bench已经成了AI编程能力的”高考分数线”——每个新模型发布必报的数字。但这个benchmark到底在考什么?刷到80%以上就意味着AI真的能当程序员了吗?
测试方式
SWE-bench用的是真实GitHub issue。从Django、Flask、Requests、Matplotlib这些知名项目里抽取真实的bug report和feature request,让AI模型生成patch来修复。修完之后跑项目自带的单元测试,通过算成功。
Verified子集有500个任务,每个都在独立Docker容器里执行,确保环境隔离。
当前排行
截至2026年3月:
| 模型 | Verified分数 |
|---|---|
| Claude Opus 4.5 | 80.9% |
| Claude Opus 4.6 | 80.8% |
| Gemini 3.1 Pro | 80.6% |
| MiniMax M2.5 | 80.2% |
| GPT-5.2 | 80.0% |
| DeepSeek V3.2-exp | 60.0% |
| Qwen 3 | 55.0% |
头部已经挤到80%以上,尾部还在55-60%。差距很明显。
一个容易被忽视的问题
SWE-bench测的其实是**”模型+脚手架”**的整体表现。不同的agent框架、不同的工具链配置,同一个模型可以跑出差别很大的分数。所以不能简单地看分数就断定”A模型比B强”。
为了应对分数饱和问题,研究者又推出了:
- SWE-bench PRO:更严格的子集
- SWE-bench Live:每月更新新题,防止数据污染
从2024年初的30%到2026年的80%+,两年翻了近三倍。进步速度确实吓人,但距离”完全替代程序员”还远得很——这些benchmark测的都是定义明确的单个issue,真正的软件开发中大量时间花在需求理解、架构设计、团队沟通这些benchmark覆盖不到的地方。
参考来源:SWE-bench官方、LocalAIMaster排行榜