4月16日,阿里Qwen团队把Qwen3.6-35B-A3B开源了,Apache 2.0协议,没有任何商用限制。
这个模型有点意思:总参数35B,但推理时只激活3B。用了混合专家(MoE)架构,12:1的计算稀疏比——在效果上接近35B大模型,运行开销按3B来算。
SWE-bench Verified(真实GitHub Issue修复测试)跑了73.4%,同期Google开源的Gemma 4-31B是52.0%,差了21个百分点。
架构为什么重要
先说MoE这个设计逻辑。
普通的稠密模型,每次处理一个token,所有参数都会参与计算。35B参数的模型,每个token都要用到35B的计算。
MoE不一样。它把参数分成很多个”专家”(expert),每次只激活其中一部分。Qwen3.6-35B-A3B的路由机制每次只调用对应3B参数的专家组来处理每个token,但整体模型积累了35B参数代表的知识容量。
结果就是:推理速度和显存占用按3B算,解题能力按35B算。
在RTX 4090上跑速超过120 tokens/秒。64GB的MacBook Pro M4/M5能直接跑。Q4_K_M量化之后大约21GB,一张主流消费级显卡能装下。
这对本地部署意味着很多——以前要跑开源前沿级别的编程模型,起码得有A100或者多张4090,现在一张消费级显卡就够了。
和其他模型的数字对比
vs. Google Gemma 4-31B:
| 测试 | Qwen3.6-35B | Gemma 4-31B |
|---|---|---|
| SWE-bench Verified | 73.4% | 52.0% |
| Terminal-Bench 2.0 | 51.5% | 42.9% |
| MCPMark(工具调用) | 37.0% | 18.1% |
| GPQA(通用推理) | 86.0% | 84.3% |
| AIME26(数学竞赛) | 92.7% | 89.2% |
在工具调用(MCPMark)上,Qwen3.6是Gemma 4的两倍多。这个测试场景直接对应实际Agent任务里的表现,比SWE-bench还贴近真实使用。
QwenWebBench(网页任务)拿了1397 ELO,比上一代提升43%。
vs. Claude Sonnet 4.5:
根据The Decoder的测评,在纯编程benchmark上接近持平,差距在测量误差范围内。助手风格对话和通用闲聊方面,Claude仍然领先。
开源细节和可用性
模型权重在 Hugging Face(Qwen/Qwen3.6-35B-A3B)和 ModelScope 都能下载,兼容 Transformers、vLLM(>=0.19.0)、SGLang(>=0.5.10)和 KTransformers。
支持两个模式:
- Thinking模式:类似推理模型,多步深度思考,保留推理过程供后续对话继承
- Fast模式:直接输出,适合对话和轻量任务
原生上下文窗口262,144 tokens,YaRN扩展后能到100万+。
API也可以通过阿里云Model Studio调用(名称 “Qwen3.6 Flash”),或者自己部署。
怎么看这件事
这是阿里在开源方向的第三步了。Qwen3基础版开源(Apache协议)、Qwen3.6-Plus企业闭源版发布,然后开源了Qwen3.6-35B-A3B这个高性能编程特化版本。
每一步节奏都很清晰:先建社区和开发者基础,再用闭源版本赚钱,再用开源版本把生态做深。
Qwen3.6-35B-A3B的73.4% SWE-bench成绩放在整个开源模型里是什么水平?目前开源里排得上名的也就DeepSeek V4和这个,闭源里Claude Sonnet 4.5也才在这个区间附近。一个能本地跑的MoE模型跑到这个分数,是真的变了点什么。
当然,SWE-bench高分不等于生产用起来就好用。编程Agent的实际表现还要看上下文管理、错误恢复、长流程稳定性——这些都不在benchmark里。但起点放到这里,值得认真跑一跑。
参考来源:Alibaba's open model Qwen3.6 leads Google's Gemma 4 across agentic coding benchmarks(The Decoder);Qwen3.6-35B-A3B: 73.4% SWE-Bench, Runs Locally(Build Fast with AI);Qwen3.6-35B-A3B Complete Review: Alibaba's Open-Source Coding Model(DEV Community)