阿里把模型扔到自家芯片上跑了 35 小时——让它自己写驱动,结果跑出 10 倍提速
5 月 20 日,杭州云栖大会,阿里端了三盘菜上来——一颗芯片、一个模型、一台机柜。 但真正让人记住这场发布会的,是一段 35 小时的演示。 这场演示干了一件反直觉的事阿里把刚发布的 Qwen3.7-Max 模型,放到刚发布的 Zhenwu
共 10 篇文章
5 月 20 日,杭州云栖大会,阿里端了三盘菜上来——一颗芯片、一个模型、一台机柜。 但真正让人记住这场发布会的,是一段 35 小时的演示。 这场演示干了一件反直觉的事阿里把刚发布的 Qwen3.7-Max 模型,放到刚发布的 Zhenwu
40亿。这是阿里今天扔给Qwen的商品数量。 不是接进搜索框,不是接进推荐流,是整条交易链路——找货、比价、试穿、下单、付钱、退换货——全部交给AI Agent接管。Qwen应用里说一句”帮我看看这双鞋”,它从淘宝、天猫的整个货架里翻、推荐
先上这个数字:SWE-bench Pro 53.5 vs 50.9。 前者是Qwen3.6-27B,27B参数,4月22日刚开源,Apache 2.0协议。后者是Qwen3.5-397B,397B参数,混合专家架构(MoE),阿里之前的主力
4月22日,Qwen团队在Hugging Face发了个新模型。27B参数,Dense架构,Apache 2.0协议,叫Qwen3.6-27B。 发布博文里,他们把benchmark分数列了出来。SWE-bench Verified:77.
4月20日,Alibaba发布了Qwen系列有史以来性能最强的模型——Qwen3.6-Max-Preview。 说悄悄,是因为这次没有大张旗鼓的开源庆典,没有Apache协议公告,也没有欢迎下载、商业免费的旗帜。Qwen3.6-Max只在Q
4月16日,阿里Qwen团队把Qwen3.6-35B-A3B开源了,Apache 2.0协议,没有任何商用限制。 这个模型有点意思:总参数35B,但推理时只激活3B。用了混合专家(MoE)架构,12:1的计算稀疏比——在效果上接近35B大模
Qwen3.5 小型模型系列刚发布24小时,阿里 AI 实验室的核心就散了。 谁走了3月5日,主导阿里 Qwen 系列模型从零到全球600多万次下载的首席 AI 研究员**林俊阳(Junyang Lin)**宣布辞职。出走的不止他一人: 惠
3月30日,阿里Qwen团队丢出了Qwen3.5-Omni,这是他们第一个真正意义上的全模态模型——文字、图片、音频、视频全部塞进同一个模型里处理,不是那种把几个专门模型拼在一起的拼接式架构。 一个模型,四种模态之前市面上的多模态系统大多是
4月2号,阿里发布了Qwen3.6-Plus。 这次不是”更大的模型”那种常规发布,而是专门针对企业级AI Agent场景的一次定向升级。从产品定位看,阿里这次想明白了一件事:通用能力军备竞赛跑不赢,那就去做”真正能进生产环境干活”的执行层
阿里云在4月初发了Qwen3.6 Plus,官方定位是”面向企业的Agentic AI”。放到一堆大模型发布公告里可能显得平平无奇,但仔细看技术细节和基准测试,还是有几个值得认真对待的地方。 1M上下文,专门为仓库级代码分析设计Qwen3.