35B参数只激活3B:阿里开源Qwen3.6-35B,SWE-bench 73.4%碾压Gemma 4,MacBook能跑

4月16日,阿里Qwen团队把Qwen3.6-35B-A3B开源了,Apache 2.0协议,没有任何商用限制。

这个模型有点意思:总参数35B,但推理时只激活3B。用了混合专家(MoE)架构,12:1的计算稀疏比——在效果上接近35B大模型,运行开销按3B来算。

SWE-bench Verified(真实GitHub Issue修复测试)跑了73.4%,同期Google开源的Gemma 4-31B是52.0%,差了21个百分点。

架构为什么重要

先说MoE这个设计逻辑。

普通的稠密模型,每次处理一个token,所有参数都会参与计算。35B参数的模型,每个token都要用到35B的计算。

MoE不一样。它把参数分成很多个”专家”(expert),每次只激活其中一部分。Qwen3.6-35B-A3B的路由机制每次只调用对应3B参数的专家组来处理每个token,但整体模型积累了35B参数代表的知识容量。

结果就是:推理速度和显存占用按3B算,解题能力按35B算。

在RTX 4090上跑速超过120 tokens/秒。64GB的MacBook Pro M4/M5能直接跑。Q4_K_M量化之后大约21GB,一张主流消费级显卡能装下。

这对本地部署意味着很多——以前要跑开源前沿级别的编程模型,起码得有A100或者多张4090,现在一张消费级显卡就够了。

和其他模型的数字对比

vs. Google Gemma 4-31B:

测试 Qwen3.6-35B Gemma 4-31B
SWE-bench Verified 73.4% 52.0%
Terminal-Bench 2.0 51.5% 42.9%
MCPMark(工具调用) 37.0% 18.1%
GPQA(通用推理) 86.0% 84.3%
AIME26(数学竞赛) 92.7% 89.2%

在工具调用(MCPMark)上,Qwen3.6是Gemma 4的两倍多。这个测试场景直接对应实际Agent任务里的表现,比SWE-bench还贴近真实使用。

QwenWebBench(网页任务)拿了1397 ELO,比上一代提升43%。

vs. Claude Sonnet 4.5:

根据The Decoder的测评,在纯编程benchmark上接近持平,差距在测量误差范围内。助手风格对话和通用闲聊方面,Claude仍然领先。

开源细节和可用性

模型权重在 Hugging Face(Qwen/Qwen3.6-35B-A3B)和 ModelScope 都能下载,兼容 Transformers、vLLM(>=0.19.0)、SGLang(>=0.5.10)和 KTransformers。

支持两个模式:

  • Thinking模式:类似推理模型,多步深度思考,保留推理过程供后续对话继承
  • Fast模式:直接输出,适合对话和轻量任务

原生上下文窗口262,144 tokens,YaRN扩展后能到100万+。

API也可以通过阿里云Model Studio调用(名称 “Qwen3.6 Flash”),或者自己部署。

怎么看这件事

这是阿里在开源方向的第三步了。Qwen3基础版开源(Apache协议)、Qwen3.6-Plus企业闭源版发布,然后开源了Qwen3.6-35B-A3B这个高性能编程特化版本。

每一步节奏都很清晰:先建社区和开发者基础,再用闭源版本赚钱,再用开源版本把生态做深。

Qwen3.6-35B-A3B的73.4% SWE-bench成绩放在整个开源模型里是什么水平?目前开源里排得上名的也就DeepSeek V4和这个,闭源里Claude Sonnet 4.5也才在这个区间附近。一个能本地跑的MoE模型跑到这个分数,是真的变了点什么。

当然,SWE-bench高分不等于生产用起来就好用。编程Agent的实际表现还要看上下文管理、错误恢复、长流程稳定性——这些都不在benchmark里。但起点放到这里,值得认真跑一跑。

参考来源:Alibaba's open model Qwen3.6 leads Google's Gemma 4 across agentic coding benchmarks(The Decoder);Qwen3.6-35B-A3B: 73.4% SWE-Bench, Runs Locally(Build Fast with AI);Qwen3.6-35B-A3B Complete Review: Alibaba's Open-Source Coding Model(DEV Community)