4月22日,Qwen团队在Hugging Face发了个新模型。27B参数,Dense架构,Apache 2.0协议,叫Qwen3.6-27B。
发布博文里,他们把benchmark分数列了出来。SWE-bench Verified:77.2分。旁边顺手也放了Qwen3.5-397B-A17B的成绩:76.2分。
一个27B的Dense模型,在编程benchmark上赢了自家397B的MoE旗舰。
这事不是偶然的,背后有具体原因。
MoE从哪里开始漏水
MoE(混合专家)架构是过去两年大模型扩展的主流解法。逻辑很简单:总参数量大,但每次推理只激活一小部分”专家”,实际计算量相对可控。
Qwen3.5-397B有397B总参数,每次推理激活17B。Qwen3.6-27B每次推理激活全部27B——从计算量来说差不多,但方式完全不同。
Dense架构的推理更一致、更可预测。MoE在路由时有一定的随机性:不同输入可能触发不同的专家组合,这在长链式任务里会累积出偏差。
在代码生成这种任务上,稳定性很关键。你想要的是”每一步都对”,而不是”平均来说不错但有时候漂移”。
Terminal-Bench 2.0上,27B跑出了59.3分,397B只有52.5。SkillsBench上差距更大:48.2 对 30.0。
| 模型 | 参数规模 | SWE-bench | Terminal-Bench | SkillsBench |
|---|---|---|---|---|
| Qwen3.6-27B | 27B Dense | 77.2 | 59.3 | 48.2 |
| Qwen3.5-397B-A17B | 397B MoE | 76.2 | 52.5 | 30.0 |
三个测试里,27B全赢了。
Thinking Preservation是什么
Qwen3.6-27B加了一个叫”Thinking Preservation”的机制,值得单独说一下。
在多轮对话里,模型会把之前推理过程的摘要保留下来,下一轮不需要从头推理——直接在上一轮的思考结果上继续。
这在Agent工作流里很实用。一个Agent要完成十步任务,前三步的分析结果不应该在第四步时消失,而应该作为上下文延续下去。这减少了重复token生成,也降低了长任务里的”遗忘漂移”。
这个设计和MoE的路由机制方向相反:MoE在横向扩展参数,Thinking Preservation在纵向优化状态传递。两个思路解的是不同层次的问题。
能在消费级硬件上跑
这是这个模型另一个实际价值。
Qwen3.5-397B的完整版需要807GB存储空间。量化版也要几百GB,要跑起来得备一台多GPU服务器,普通开发者基本没戏。
Qwen3.6-27B:
- 完整版55.6GB
- 量化GGUF版16.8GB
- 一张RTX 4090就能跑,速度约25 tokens/秒
- M4 Max MacBook更没问题
上下文窗口默认262,144 tokens,可扩展到100万。Apache 2.0协议,商用没限制。
这把本地部署的门槛打下来了很多。想在内网部署一个编程Agent、不想把代码传给云端API的工程师团队——以前这条路要么用很差的开源模型,要么买很贵的GPU服务器。现在有了一个选项。
这对MoE意味着什么
阿里这次发布的时间点有意思。Qwen3.6-27B在Qwen3.6-Max(旗舰闭源版)发布几天后跟上——一个展示顶线能力吸引商业客户,一个给开发者社区用。两条腿,各自服务不同人群。
但更大的问题是:如果一个27B的Dense模型在agentic coding上已经能跟Claude Opus 4.5平起平坐,接下来这场竞争要在哪个维度打?
Terminal-Bench上27B和Claude Opus 4.5打平,而Opus 4.5的API价格在每百万token 15美元以上。Qwen3.6-27B开源可以自己部署。
Benchmark的增量收益越来越小。用户开始更关心延迟、成本、本地部署可能性。
这个趋势对开源模型有利,对闭源API服务有压力。
下一步看Kimi、DeepSeek和MiniMax怎么跟。
参考来源:Qwen3.6-27B: Flagship-Level Coding in a 27B Dense Model(Simon Willison's Blog);Alibaba's Qwen3.6-27B Beats 397B Model in Coding Tasks(AI Daily Post);Qwen3.6-27B(Hacker News)