阿里云在4月初发了Qwen3.6 Plus,官方定位是”面向企业的Agentic AI”。放到一堆大模型发布公告里可能显得平平无奇,但仔细看技术细节和基准测试,还是有几个值得认真对待的地方。
1M上下文,专门为仓库级代码分析设计
Qwen3.6 Plus的上下文窗口是100万token,大约等于2000页文档。这个数字本身已经不新鲜了,但阿里这次给了个比较具体的用法:仓库级代码分析。
一个完整的代码仓库,几十个文件,几万行代码,全部塞进上下文,让模型在这个范围内规划、编写、测试和修复。这种”不需要分块不需要检索”的方式,在agent任务里减少了大量工程复杂度。终端执行、长链规划、工具调用,这几个agent核心能力Qwen3.6 Plus都有针对性地做了强化。
SWE-bench上跟Claude Opus 4.5打平
这个基准测试结果是最容易引战的地方:Qwen3.6 Plus在SWE-bench Verified和Terminal-Bench 2.0上的表现,阿里说和Anthropic的Claude Opus 4.5相当。
| 基准测试 | Qwen3.6 Plus | Claude Opus 4.5 |
|---|---|---|
| SWE-bench Verified | 相当 | 参照基准 |
| Terminal-Bench 2.0 | 相当 | 参照基准 |
“相当”这个说法出自厂商自己,独立第三方验证还在进行中。不过从社区在OpenRouter上的测评来看,Qwen3.6 Plus Preview的推理速度大约是Claude Opus 4.6的2-3倍,价格则低得多:阿里云上的输入定价约0.29美元/百万token。
社区测评显示Qwen 3.6 Plus的整体得分和排名相较Qwen 3.5 Plus有明显提升,这个进化节奏是真实的。
给它截图,它帮你写前端代码
多模态部分值得单独说:给Qwen3.6 Plus一张UI截图、手绘线框图或者产品原型,它能直接生成对应的前端代码。这把”从设计稿到代码”这个环节直接自动化了,结合1M上下文来处理复杂组件库,实用价值不低。
模型还能跨高密度文档、视觉环境和长视频进行多模态推理,设计和开发工作流之间的桥接能力算是这个版本的主打方向之一。
接入Claude Code和Cline
第三方工具支持方面,Qwen3.6 Plus明确兼容Claude Code和Cline这两个主流AI编程工具。加上阿里云自家的吴空(Wukong)平台——多agent自动化业务流程的系统——基本覆盖了企业端和开发者端两个方向。
阿里还说后续会开源更小尺寸的版本,但具体时间表没明说。
这次发布的背景
这不只是一个模型更新,是阿里把AI部门重组为Token Hub之后,加速发布节奏的一个信号。竞争压力是真实的:字节跳动豆包、DeepSeek系列都在抢企业市场,Qwen3.6 Plus是阿里对”agent赛道”的一个明确表态。
能不能真的在大厂生产环境里跑稳、复杂任务的成功率能稳定在什么水平——这才是后续要验证的关键,光靠基准分数说话还不够。
参考来源:Alibaba launches Qwen3.6-Plus for agentic AI and coding(techcoffeehouse.com);Alibaba Releases Qwen 3.6-Plus AI Model With Enhanced Coding Capabilities(Caixin Global);Qwen 3.6 Plus Review: Alibaba Frontier-Level Agentic Coding Model(MindStudio);Qwen 3.6 Plus Preview: 1M Context, Speed and Benchmarks 2026(BuildFastWithAI)