AI编程 2026-04-07 SWE-bench分数越刷越高,但这个benchmark到底在测什么 SWE-bench已经成了AI编程能力的”高考分数线”——每个新模型发布必报的数字。但这个benchmark到底在考什么?刷到80%以上就意味着AI真的能当程序员了吗? 测试方式SWE-bench用的是真实GitHub issue。从Dja