先上这个数字:SWE-bench Pro 53.5 vs 50.9。
前者是Qwen3.6-27B,27B参数,4月22日刚开源,Apache 2.0协议。后者是Qwen3.5-397B,397B参数,混合专家架构(MoE),阿里之前的主力模型。
270亿参数的小模型,在代码工程测试上打赢了近400亿激活参数的大模型,这不是小事。
Thinking Preservation:这才是关键
说实话,参数越少越强这个故事,这圈子已经看过好几轮了。Qwen3.6-27B能打出这个成绩,核心不在于架构本身,在于一个新功能:Thinking Preservation(思考保留)。
开源LLM里有一个被忽视的问题:当Agent跑多轮任务时,每轮的推理过程是被丢掉的。模型每次都要从上下文重新推断,而不是复用之前已经建立好的认知链路。
Qwen3.6-27B的做法是把历史消息里的”思考轨迹”作为持久上下文保留下来:
“retains and leverages thinking traces from historical messages across the entire conversation rather than discarding prior reasoning, improving efficiency in multi-turn agent workflows”
说人话就是:模型记住了自己之前是怎么想的,而不是每次归零。
在agentic编码任务上,这个差距很明显。处理同一个代码仓库,记得上轮推理结论的模型和不记得的,表现差距很大。SWE-bench Pro这个测试本来就是跑真实代码库的任务,这一点上的优势会被放大。
跑分全景
不只是SWE-bench,Qwen3.6-27B的表现全面:
| 测试 | Qwen3.6-27B | 对比 |
|---|---|---|
| SWE-bench Pro | 53.5 | vs Qwen3.5-397B MoE: 50.9 |
| Terminal-Bench 2.0 | 59.3 | 与Claude Opus旗舰版持平 |
| AIME26(数学竞赛) | 94.1 | vs Qwen3.5-27B: 92.6 |
| QwenWebBench | 1487 | vs Qwen3.5-27B: 1068(+39%) |
| SkillsBench平均 | 48.2 | 比上代同尺寸模型提升77% |
| GPQA Diamond | 87.8 | vs Qwen3.5-27B: 85.5 |
SkillsBench提升77%,这个数字值得单说。这个测试衡量的是跨领域通用能力,从Qwen3.5-27B到Qwen3.6-27B,不是小修小补,是系统级重构。
上下文窗口
原生支持262,144 tokens(约20万中文字),用YaRN缩放可以到1,010,000 tokens。
对于需要处理长代码仓库或长文档的场景,这个上下文已经足够。
开源意味着什么
Apache 2.0协议,商用无限制。
这对企业比性能数字更实际:27B参数的模型,本地部署成本远低于397B,但在核心任务上跑分更高——这个组合对想自建AI能力的公司很有吸引力。想想看,一张消费级GPU就能跑27B,而397B至少要多卡高端机器。
这也是为什么SkillsBench那个77%的数字很关键:不只是在代码上更强,而是通用能力全面提升了,这才是真正能替换大模型的前提。
这周的格局
这周很巧,OpenAI发了GPT-5.5,阿里发了Qwen3.6-27B。
两件事放在一起看:闭源旗舰在追求”更快更省token”,开源小模型在追求”用更少参数打更好的成绩”。方向不同,但都在挤压对方的空间。
下一个被颠覆的,可能不是哪家公司,而是”需要大模型才能跑好代码”这个假设。
参考来源:Alibaba Qwen Team Releases Qwen3.6-27B: A Dense Open-Weight Model Outperforming 397B MoE on Agentic Coding Benchmarks(MarkTechPost)