35B参数只激活3B：阿里开源Qwen3.6-35B，SWE-bench 73.4%碾压Gemma 4，MacBook能跑 - News

4月16日，阿里Qwen团队把Qwen3.6-35B-A3B开源了，Apache 2.0协议，没有任何商用限制。

这个模型有点意思：总参数35B，但推理时只激活3B。用了混合专家（MoE）架构，12:1的计算稀疏比——在效果上接近35B大模型，运行开销按3B来算。

SWE-bench Verified（真实GitHub Issue修复测试）跑了73.4%，同期Google开源的Gemma 4-31B是52.0%，差了21个百分点。

架构为什么重要

先说MoE这个设计逻辑。

普通的稠密模型，每次处理一个token，所有参数都会参与计算。35B参数的模型，每个token都要用到35B的计算。

MoE不一样。它把参数分成很多个”专家”（expert），每次只激活其中一部分。Qwen3.6-35B-A3B的路由机制每次只调用对应3B参数的专家组来处理每个token，但整体模型积累了35B参数代表的知识容量。

结果就是：推理速度和显存占用按3B算，解题能力按35B算。

在RTX 4090上跑速超过120 tokens/秒。64GB的MacBook Pro M4/M5能直接跑。Q4_K_M量化之后大约21GB，一张主流消费级显卡能装下。

这对本地部署意味着很多——以前要跑开源前沿级别的编程模型，起码得有A100或者多张4090，现在一张消费级显卡就够了。

和其他模型的数字对比

vs. Google Gemma 4-31B：

测试	Qwen3.6-35B	Gemma 4-31B
SWE-bench Verified	73.4%	52.0%
Terminal-Bench 2.0	51.5%	42.9%
MCPMark（工具调用）	37.0%	18.1%
GPQA（通用推理）	86.0%	84.3%
AIME26（数学竞赛）	92.7%	89.2%

在工具调用（MCPMark）上，Qwen3.6是Gemma 4的两倍多。这个测试场景直接对应实际Agent任务里的表现，比SWE-bench还贴近真实使用。

QwenWebBench（网页任务）拿了1397 ELO，比上一代提升43%。

vs. Claude Sonnet 4.5：

根据The Decoder的测评，在纯编程benchmark上接近持平，差距在测量误差范围内。助手风格对话和通用闲聊方面，Claude仍然领先。

开源细节和可用性

模型权重在 Hugging Face（Qwen/Qwen3.6-35B-A3B）和 ModelScope 都能下载，兼容 Transformers、vLLM（>=0.19.0）、SGLang（>=0.5.10）和 KTransformers。

支持两个模式：

Thinking模式：类似推理模型，多步深度思考，保留推理过程供后续对话继承
Fast模式：直接输出，适合对话和轻量任务

原生上下文窗口262,144 tokens，YaRN扩展后能到100万+。

API也可以通过阿里云Model Studio调用（名称 “Qwen3.6 Flash”），或者自己部署。

怎么看这件事

这是阿里在开源方向的第三步了。Qwen3基础版开源（Apache协议）、Qwen3.6-Plus企业闭源版发布，然后开源了Qwen3.6-35B-A3B这个高性能编程特化版本。

每一步节奏都很清晰：先建社区和开发者基础，再用闭源版本赚钱，再用开源版本把生态做深。

Qwen3.6-35B-A3B的73.4% SWE-bench成绩放在整个开源模型里是什么水平？目前开源里排得上名的也就DeepSeek V4和这个，闭源里Claude Sonnet 4.5也才在这个区间附近。一个能本地跑的MoE模型跑到这个分数，是真的变了点什么。

当然，SWE-bench高分不等于生产用起来就好用。编程Agent的实际表现还要看上下文管理、错误恢复、长流程稳定性——这些都不在benchmark里。但起点放到这里，值得认真跑一跑。

参考来源：Alibaba's open model Qwen3.6 leads Google's Gemma 4 across agentic coding benchmarks（The Decoder）；Qwen3.6-35B-A3B: 73.4% SWE-Bench, Runs Locally（Build Fast with AI）；Qwen3.6-35B-A3B Complete Review: Alibaba's Open-Source Coding Model（DEV Community）