阿里Qwen3.6 Plus:1M上下文、SWE-bench碰瓷Claude Opus,国产Agentic大模型卷进新阶段

阿里云在4月初发了Qwen3.6 Plus,官方定位是”面向企业的Agentic AI”。放到一堆大模型发布公告里可能显得平平无奇,但仔细看技术细节和基准测试,还是有几个值得认真对待的地方。

1M上下文,专门为仓库级代码分析设计

Qwen3.6 Plus的上下文窗口是100万token,大约等于2000页文档。这个数字本身已经不新鲜了,但阿里这次给了个比较具体的用法:仓库级代码分析

一个完整的代码仓库,几十个文件,几万行代码,全部塞进上下文,让模型在这个范围内规划、编写、测试和修复。这种”不需要分块不需要检索”的方式,在agent任务里减少了大量工程复杂度。终端执行、长链规划、工具调用,这几个agent核心能力Qwen3.6 Plus都有针对性地做了强化。

SWE-bench上跟Claude Opus 4.5打平

这个基准测试结果是最容易引战的地方:Qwen3.6 Plus在SWE-bench Verified和Terminal-Bench 2.0上的表现,阿里说和Anthropic的Claude Opus 4.5相当。

基准测试 Qwen3.6 Plus Claude Opus 4.5
SWE-bench Verified 相当 参照基准
Terminal-Bench 2.0 相当 参照基准

“相当”这个说法出自厂商自己,独立第三方验证还在进行中。不过从社区在OpenRouter上的测评来看,Qwen3.6 Plus Preview的推理速度大约是Claude Opus 4.6的2-3倍,价格则低得多:阿里云上的输入定价约0.29美元/百万token

社区测评显示Qwen 3.6 Plus的整体得分和排名相较Qwen 3.5 Plus有明显提升,这个进化节奏是真实的。

给它截图,它帮你写前端代码

多模态部分值得单独说:给Qwen3.6 Plus一张UI截图、手绘线框图或者产品原型,它能直接生成对应的前端代码。这把”从设计稿到代码”这个环节直接自动化了,结合1M上下文来处理复杂组件库,实用价值不低。

模型还能跨高密度文档、视觉环境和长视频进行多模态推理,设计和开发工作流之间的桥接能力算是这个版本的主打方向之一。

接入Claude Code和Cline

第三方工具支持方面,Qwen3.6 Plus明确兼容Claude Code和Cline这两个主流AI编程工具。加上阿里云自家的吴空(Wukong)平台——多agent自动化业务流程的系统——基本覆盖了企业端和开发者端两个方向。

阿里还说后续会开源更小尺寸的版本,但具体时间表没明说。

这次发布的背景

这不只是一个模型更新,是阿里把AI部门重组为Token Hub之后,加速发布节奏的一个信号。竞争压力是真实的:字节跳动豆包、DeepSeek系列都在抢企业市场,Qwen3.6 Plus是阿里对”agent赛道”的一个明确表态。

能不能真的在大厂生产环境里跑稳、复杂任务的成功率能稳定在什么水平——这才是后续要验证的关键,光靠基准分数说话还不够。

参考来源:Alibaba launches Qwen3.6-Plus for agentic AI and coding(techcoffeehouse.com);Alibaba Releases Qwen 3.6-Plus AI Model With Enhanced Coding Capabilities(Caixin Global);Qwen 3.6 Plus Review: Alibaba Frontier-Level Agentic Coding Model(MindStudio);Qwen 3.6 Plus Preview: 1M Context, Speed and Benchmarks 2026(BuildFastWithAI)