阿里发了个27B模型,然后把自家397B的成绩列在旁边——结果有点意思

4月22日,Qwen团队在Hugging Face发了个新模型。27B参数,Dense架构,Apache 2.0协议,叫Qwen3.6-27B。

发布博文里,他们把benchmark分数列了出来。SWE-bench Verified:77.2分。旁边顺手也放了Qwen3.5-397B-A17B的成绩:76.2分。

一个27B的Dense模型,在编程benchmark上赢了自家397B的MoE旗舰。

这事不是偶然的,背后有具体原因。

MoE从哪里开始漏水

MoE(混合专家)架构是过去两年大模型扩展的主流解法。逻辑很简单:总参数量大,但每次推理只激活一小部分”专家”,实际计算量相对可控。

Qwen3.5-397B有397B总参数,每次推理激活17B。Qwen3.6-27B每次推理激活全部27B——从计算量来说差不多,但方式完全不同。

Dense架构的推理更一致、更可预测。MoE在路由时有一定的随机性:不同输入可能触发不同的专家组合,这在长链式任务里会累积出偏差。

在代码生成这种任务上,稳定性很关键。你想要的是”每一步都对”,而不是”平均来说不错但有时候漂移”。

Terminal-Bench 2.0上,27B跑出了59.3分,397B只有52.5。SkillsBench上差距更大:48.2 对 30.0。

模型 参数规模 SWE-bench Terminal-Bench SkillsBench
Qwen3.6-27B 27B Dense 77.2 59.3 48.2
Qwen3.5-397B-A17B 397B MoE 76.2 52.5 30.0

三个测试里,27B全赢了。

Thinking Preservation是什么

Qwen3.6-27B加了一个叫”Thinking Preservation”的机制,值得单独说一下。

在多轮对话里,模型会把之前推理过程的摘要保留下来,下一轮不需要从头推理——直接在上一轮的思考结果上继续。

这在Agent工作流里很实用。一个Agent要完成十步任务,前三步的分析结果不应该在第四步时消失,而应该作为上下文延续下去。这减少了重复token生成,也降低了长任务里的”遗忘漂移”。

这个设计和MoE的路由机制方向相反:MoE在横向扩展参数,Thinking Preservation在纵向优化状态传递。两个思路解的是不同层次的问题。

能在消费级硬件上跑

这是这个模型另一个实际价值。

Qwen3.5-397B的完整版需要807GB存储空间。量化版也要几百GB,要跑起来得备一台多GPU服务器,普通开发者基本没戏。

Qwen3.6-27B:

  • 完整版55.6GB
  • 量化GGUF版16.8GB
  • 一张RTX 4090就能跑,速度约25 tokens/秒
  • M4 Max MacBook更没问题

上下文窗口默认262,144 tokens,可扩展到100万。Apache 2.0协议,商用没限制。

这把本地部署的门槛打下来了很多。想在内网部署一个编程Agent、不想把代码传给云端API的工程师团队——以前这条路要么用很差的开源模型,要么买很贵的GPU服务器。现在有了一个选项。

这对MoE意味着什么

阿里这次发布的时间点有意思。Qwen3.6-27B在Qwen3.6-Max(旗舰闭源版)发布几天后跟上——一个展示顶线能力吸引商业客户,一个给开发者社区用。两条腿,各自服务不同人群。

但更大的问题是:如果一个27B的Dense模型在agentic coding上已经能跟Claude Opus 4.5平起平坐,接下来这场竞争要在哪个维度打?

Terminal-Bench上27B和Claude Opus 4.5打平,而Opus 4.5的API价格在每百万token 15美元以上。Qwen3.6-27B开源可以自己部署。

Benchmark的增量收益越来越小。用户开始更关心延迟、成本、本地部署可能性。

这个趋势对开源模型有利,对闭源API服务有压力。

下一步看Kimi、DeepSeek和MiniMax怎么跟。

参考来源:Qwen3.6-27B: Flagship-Level Coding in a 27B Dense Model(Simon Willison's Blog);Alibaba's Qwen3.6-27B Beats 397B Model in Coding Tasks(AI Daily Post);Qwen3.6-27B(Hacker News)