4月2号,阿里发布了Qwen3.6-Plus。
这次不是”更大的模型”那种常规发布,而是专门针对企业级AI Agent场景的一次定向升级。从产品定位看,阿里这次想明白了一件事:通用能力军备竞赛跑不赢,那就去做”真正能进生产环境干活”的执行层。
最重要的三个变化
1. 代码能力:仓库级别的工程能力
之前的大模型写代码,基本上是”给你个函数,你来用”。Qwen3.6-Plus的定位不一样——它要能在整个代码仓库里工作:计划、写代码、跑测试、发现问题、改代码,完整的执行循环。
这种工作模式跟Claude Code比较接近,模型不是提示词里的”建议提供者”,而是参与进去。
默认支持 100万token 上下文窗口,中等规模项目的完整代码放进去基本没压力。
2. 视觉理解:截图直接变代码
给它一张UI截图、手绘线框图,或者产品原型图,它能直接生成可运行的前端代码。不是生成个大概框架,是”看图写代码”这个闭环。
除了静态图片,还支持文档和视频内容的理解,这对做企业内部工具的场景实用性比较高。
3. 工具调用和长程规划
当前各家AI Agent能力差距最大的地方就在这里。Qwen3.6-Plus在多个长程规划benchmark上拿到了最优结果,工具调用的准确率也有提升。
具体数字方面,在SWE-Bench、Terminal-Bench等编程专项评测上都有竞争力的表现,但完整benchmark数据阿里没有全部公开。
一个API新功能:preserve_thinking
这个参数在多轮对话中保持推理上下文,而不是每轮重新推理。
对Agent场景来说很实用:减少冗余推理等于减少token消耗,等于实际使用成本降低。在长流程自动化任务里,这个差别会被放大。
为什么说这是”阿里自用优先”的模型?
Qwen3.6-Plus会被集成进两个阿里内部产品:
- Wukong:阿里的AI原生企业平台,用多agent系统自动化复杂商业任务
- Qwen App:阿里的旗舰消费端AI应用
先给自己用,再开放给外部,这种逻辑往往意味着这个模型经历过的压力测试比纯外部benchmark更接近真实场景。
编程环境兼容性不错:支持OpenClaw、Claude Code、Qwen Code、Kilo Code,同时兼容OpenAI和Anthropic两套API协议,开发者接入不需要大改。
横向对比:Qwen这条路走对了吗?
看Qwen系列的演化路线,从通用对话到长上下文,再到代码专项、多模态,现在到agentic执行,每一步都在往更”能干活”的方向走。
这个方向跟Anthropic(Claude Code)、OpenAI(Codex)的产品战略越来越像。不同的是阿里有中国企业客户的先天优势和对阿里云生态的深度绑定——这是在国内市场的差异化空间,不是靠benchmark分数赢,是靠生态集成赢。
参考来源:Qwen3.6-Plus: Towards Real World Agents(Alibaba Cloud Community);Alibaba Unveils Qwen3.6-Plus to Accelerate Agentic AI Deployment for Enterprises(Alibaba Cloud);Beyond Passive Assistance: How Qwen3.6-Plus Is Advancing Agentic AI(The Tech Revolutionist)