270亿参数打赢了3970亿MoE：Qwen3.6-27B开源，靠的是把推理过程记下来 - News

先上这个数字：SWE-bench Pro 53.5 vs 50.9。

前者是Qwen3.6-27B，27B参数，4月22日刚开源，Apache 2.0协议。后者是Qwen3.5-397B，397B参数，混合专家架构（MoE），阿里之前的主力模型。

270亿参数的小模型，在代码工程测试上打赢了近400亿激活参数的大模型，这不是小事。

Thinking Preservation：这才是关键

说实话，参数越少越强这个故事，这圈子已经看过好几轮了。Qwen3.6-27B能打出这个成绩，核心不在于架构本身，在于一个新功能：Thinking Preservation（思考保留）。

开源LLM里有一个被忽视的问题：当Agent跑多轮任务时，每轮的推理过程是被丢掉的。模型每次都要从上下文重新推断，而不是复用之前已经建立好的认知链路。

Qwen3.6-27B的做法是把历史消息里的”思考轨迹”作为持久上下文保留下来：

“retains and leverages thinking traces from historical messages across the entire conversation rather than discarding prior reasoning, improving efficiency in multi-turn agent workflows”

说人话就是：模型记住了自己之前是怎么想的，而不是每次归零。

在agentic编码任务上，这个差距很明显。处理同一个代码仓库，记得上轮推理结论的模型和不记得的，表现差距很大。SWE-bench Pro这个测试本来就是跑真实代码库的任务，这一点上的优势会被放大。

跑分全景

不只是SWE-bench，Qwen3.6-27B的表现全面：

测试	Qwen3.6-27B	对比
SWE-bench Pro	53.5	vs Qwen3.5-397B MoE: 50.9
Terminal-Bench 2.0	59.3	与Claude Opus旗舰版持平
AIME26（数学竞赛）	94.1	vs Qwen3.5-27B: 92.6
QwenWebBench	1487	vs Qwen3.5-27B: 1068（+39%）
SkillsBench平均	48.2	比上代同尺寸模型提升77%
GPQA Diamond	87.8	vs Qwen3.5-27B: 85.5

SkillsBench提升77%，这个数字值得单说。这个测试衡量的是跨领域通用能力，从Qwen3.5-27B到Qwen3.6-27B，不是小修小补，是系统级重构。

上下文窗口

原生支持262,144 tokens（约20万中文字），用YaRN缩放可以到1,010,000 tokens。

对于需要处理长代码仓库或长文档的场景，这个上下文已经足够。

开源意味着什么

Apache 2.0协议，商用无限制。

这对企业比性能数字更实际：27B参数的模型，本地部署成本远低于397B，但在核心任务上跑分更高——这个组合对想自建AI能力的公司很有吸引力。想想看，一张消费级GPU就能跑27B，而397B至少要多卡高端机器。

这也是为什么SkillsBench那个77%的数字很关键：不只是在代码上更强，而是通用能力全面提升了，这才是真正能替换大模型的前提。

这周的格局

这周很巧，OpenAI发了GPT-5.5，阿里发了Qwen3.6-27B。

两件事放在一起看：闭源旗舰在追求”更快更省token”，开源小模型在追求”用更少参数打更好的成绩”。方向不同，但都在挤压对方的空间。

下一个被颠覆的，可能不是哪家公司，而是”需要大模型才能跑好代码”这个假设。

参考来源：Alibaba Qwen Team Releases Qwen3.6-27B: A Dense Open-Weight Model Outperforming 397B MoE on Agentic Coding Benchmarks（MarkTechPost）