270亿参数打赢了3970亿MoE:Qwen3.6-27B开源,靠的是把推理过程记下来

先上这个数字:SWE-bench Pro 53.5 vs 50.9

前者是Qwen3.6-27B,27B参数,4月22日刚开源,Apache 2.0协议。后者是Qwen3.5-397B,397B参数,混合专家架构(MoE),阿里之前的主力模型。

270亿参数的小模型,在代码工程测试上打赢了近400亿激活参数的大模型,这不是小事。

Thinking Preservation:这才是关键

说实话,参数越少越强这个故事,这圈子已经看过好几轮了。Qwen3.6-27B能打出这个成绩,核心不在于架构本身,在于一个新功能:Thinking Preservation(思考保留)

开源LLM里有一个被忽视的问题:当Agent跑多轮任务时,每轮的推理过程是被丢掉的。模型每次都要从上下文重新推断,而不是复用之前已经建立好的认知链路。

Qwen3.6-27B的做法是把历史消息里的”思考轨迹”作为持久上下文保留下来:

“retains and leverages thinking traces from historical messages across the entire conversation rather than discarding prior reasoning, improving efficiency in multi-turn agent workflows”

说人话就是:模型记住了自己之前是怎么想的,而不是每次归零。

在agentic编码任务上,这个差距很明显。处理同一个代码仓库,记得上轮推理结论的模型和不记得的,表现差距很大。SWE-bench Pro这个测试本来就是跑真实代码库的任务,这一点上的优势会被放大。

跑分全景

不只是SWE-bench,Qwen3.6-27B的表现全面:

测试 Qwen3.6-27B 对比
SWE-bench Pro 53.5 vs Qwen3.5-397B MoE: 50.9
Terminal-Bench 2.0 59.3 与Claude Opus旗舰版持平
AIME26(数学竞赛) 94.1 vs Qwen3.5-27B: 92.6
QwenWebBench 1487 vs Qwen3.5-27B: 1068(+39%)
SkillsBench平均 48.2 比上代同尺寸模型提升77%
GPQA Diamond 87.8 vs Qwen3.5-27B: 85.5

SkillsBench提升77%,这个数字值得单说。这个测试衡量的是跨领域通用能力,从Qwen3.5-27B到Qwen3.6-27B,不是小修小补,是系统级重构。

上下文窗口

原生支持262,144 tokens(约20万中文字),用YaRN缩放可以到1,010,000 tokens。

对于需要处理长代码仓库或长文档的场景,这个上下文已经足够。

开源意味着什么

Apache 2.0协议,商用无限制。

这对企业比性能数字更实际:27B参数的模型,本地部署成本远低于397B,但在核心任务上跑分更高——这个组合对想自建AI能力的公司很有吸引力。想想看,一张消费级GPU就能跑27B,而397B至少要多卡高端机器。

这也是为什么SkillsBench那个77%的数字很关键:不只是在代码上更强,而是通用能力全面提升了,这才是真正能替换大模型的前提。

这周的格局

这周很巧,OpenAI发了GPT-5.5,阿里发了Qwen3.6-27B。

两件事放在一起看:闭源旗舰在追求”更快更省token”,开源小模型在追求”用更少参数打更好的成绩”。方向不同,但都在挤压对方的空间。

下一个被颠覆的,可能不是哪家公司,而是”需要大模型才能跑好代码”这个假设。

参考来源:Alibaba Qwen Team Releases Qwen3.6-27B: A Dense Open-Weight Model Outperforming 397B MoE on Agentic Coding Benchmarks(MarkTechPost)