阿里发了个27B模型，然后把自家397B的成绩列在旁边——结果有点意思 - News

4月22日，Qwen团队在Hugging Face发了个新模型。27B参数，Dense架构，Apache 2.0协议，叫Qwen3.6-27B。

发布博文里，他们把benchmark分数列了出来。SWE-bench Verified：77.2分。旁边顺手也放了Qwen3.5-397B-A17B的成绩：76.2分。

一个27B的Dense模型，在编程benchmark上赢了自家397B的MoE旗舰。

这事不是偶然的，背后有具体原因。

MoE从哪里开始漏水

MoE（混合专家）架构是过去两年大模型扩展的主流解法。逻辑很简单：总参数量大，但每次推理只激活一小部分”专家”，实际计算量相对可控。

Qwen3.5-397B有397B总参数，每次推理激活17B。Qwen3.6-27B每次推理激活全部27B——从计算量来说差不多，但方式完全不同。

Dense架构的推理更一致、更可预测。MoE在路由时有一定的随机性：不同输入可能触发不同的专家组合，这在长链式任务里会累积出偏差。

在代码生成这种任务上，稳定性很关键。你想要的是”每一步都对”，而不是”平均来说不错但有时候漂移”。

Terminal-Bench 2.0上，27B跑出了59.3分，397B只有52.5。SkillsBench上差距更大：48.2 对 30.0。

模型	参数规模	SWE-bench	Terminal-Bench	SkillsBench
Qwen3.6-27B	27B Dense	77.2	59.3	48.2
Qwen3.5-397B-A17B	397B MoE	76.2	52.5	30.0

三个测试里，27B全赢了。

Thinking Preservation是什么

Qwen3.6-27B加了一个叫”Thinking Preservation”的机制，值得单独说一下。

在多轮对话里，模型会把之前推理过程的摘要保留下来，下一轮不需要从头推理——直接在上一轮的思考结果上继续。

这在Agent工作流里很实用。一个Agent要完成十步任务，前三步的分析结果不应该在第四步时消失，而应该作为上下文延续下去。这减少了重复token生成，也降低了长任务里的”遗忘漂移”。

这个设计和MoE的路由机制方向相反：MoE在横向扩展参数，Thinking Preservation在纵向优化状态传递。两个思路解的是不同层次的问题。

能在消费级硬件上跑

这是这个模型另一个实际价值。

Qwen3.5-397B的完整版需要807GB存储空间。量化版也要几百GB，要跑起来得备一台多GPU服务器，普通开发者基本没戏。

Qwen3.6-27B：

完整版55.6GB
量化GGUF版16.8GB
一张RTX 4090就能跑，速度约25 tokens/秒
M4 Max MacBook更没问题

上下文窗口默认262,144 tokens，可扩展到100万。Apache 2.0协议，商用没限制。

这把本地部署的门槛打下来了很多。想在内网部署一个编程Agent、不想把代码传给云端API的工程师团队——以前这条路要么用很差的开源模型，要么买很贵的GPU服务器。现在有了一个选项。

这对MoE意味着什么

阿里这次发布的时间点有意思。Qwen3.6-27B在Qwen3.6-Max（旗舰闭源版）发布几天后跟上——一个展示顶线能力吸引商业客户，一个给开发者社区用。两条腿，各自服务不同人群。

但更大的问题是：如果一个27B的Dense模型在agentic coding上已经能跟Claude Opus 4.5平起平坐，接下来这场竞争要在哪个维度打？

Terminal-Bench上27B和Claude Opus 4.5打平，而Opus 4.5的API价格在每百万token 15美元以上。Qwen3.6-27B开源可以自己部署。

Benchmark的增量收益越来越小。用户开始更关心延迟、成本、本地部署可能性。

这个趋势对开源模型有利，对闭源API服务有压力。

下一步看Kimi、DeepSeek和MiniMax怎么跟。

参考来源：Qwen3.6-27B: Flagship-Level Coding in a 27B Dense Model（Simon Willison's Blog）；Alibaba's Qwen3.6-27B Beats 397B Model in Coding Tasks（AI Daily Post）；Qwen3.6-27B（Hacker News）