阿里把模型扔到自家芯片上跑了 35 小时——让它自己写驱动,结果跑出 10 倍提速

5 月 20 日,杭州云栖大会,阿里端了三盘菜上来——一颗芯片、一个模型、一台机柜。

但真正让人记住这场发布会的,是一段 35 小时的演示。

这场演示干了一件反直觉的事

阿里把刚发布的 Qwen3.7-Max 模型,放到刚发布的 Zhenwu M890 芯片上,让它干一件听上去很离谱的活——自己写适配自己的底层内核驱动

阿里这颗 Zhenwu M890 是新东西,外界没有任何文档。Qwen3.7-Max 要做的就是:摸黑跑在上面,把 Extend Attention 这个性能关键的算子,从头优化一遍。

35 小时跑下来——

操作 数字
工具调用 1,158 次
内核评估 432 次
架构重设计 5 轮
最终提速(几何平均) 10×

讲人话:模型自己在一颗它从没见过的芯片上,从零摸索出了驱动写法,把芯片性能拉到原本的 10 倍。

这种事,过去通常需要芯片厂的底层工程师团队干一两个月。

Zhenwu M890 这颗芯片本身

参数表抄一下——

  • HBM3 显存:144 GB(比上一代 Zhenwu 810E 多 50%)
  • 互连带宽:800 GB/s
  • 整体算力:3× 上一代

144 GB 显存是这颗芯片真正的卖点。Nvidia H200 单卡 141 GB,B200 单卡 192 GB——Zhenwu M890 卡在两者之间。够大模型推理用,更重要的是够 agentic workload(要长上下文、多 step)用。

阿里这次还顺势透露了一个数:已经发了 56 万颗 Zhenwu 芯片,给 400 多家客户,覆盖 20 个行业

不是 demo 阶段了,是真在跑。

Qwen3.7-Max 模型本身

这模型对外讲的几个关键点:

  1. 上下文窗口 100 万 token(上一代 Qwen3.6-Max-Preview 是 25.6 万)
  2. 专门为长时间任务和代码任务调优
  3. 适配 Zhenwu M890 做了协同设计

100 万 token 不算行业最长,但够 agentic 任务用——一个智能体跑几小时、几十小时不丢上下文,这就是入场券。

为什么这场发布值得专门写一篇

三个点凑到了一起:

第一自研芯片 + 自研模型 + 自研机柜——Panjiu AL128 是配套的整机柜方案。这是从训练到推理的全栈闭环。

第二模型给自家芯片写驱动——这是个非常聪明的演示选择。它告诉客户两件事:芯片足够好,模型足够智能。同时,阿里芯片厂未来招底层工程师的预算压力也小了。

第三56 万颗已发货。这不是 PPT 芯片。

把这三个点摞起来,意思就清楚了:阿里正在做中国版的 Nvidia + OpenAI——自己出芯片、自己出模型、自己卖整机方案。

而且全部用自己的钱、自己的客户基数证明走得通。

跟 Nvidia 的真实距离

参数对照不能省——

Zhenwu M890 Nvidia H200 Nvidia B200
显存 144 GB HBM3 141 GB HBM3e 192 GB HBM3e
互连 800 GB/s NVLink 900 GB/s NVLink 1.8 TB/s
生态 CUDA 替代正在搭 CUDA CUDA

硬件参数已经不输上一代 H200。但软件生态——CUDA、PyTorch 的算子库、推理框架的支持——这一块差距还在。

Qwen3.7-Max 自己写内核这件事,多少能补这块短板:模型本身就是个超级编译器了,缺什么驱动就让它写。

不是说这条路完全走得通,但至少这是中国厂商绕开 CUDA 的一种可能解法。

接下来盯什么

两件事——

第一:阿里云今年下半年开放多少 Zhenwu 算力给外部客户。如果 56 万颗里多数还是阿里自用,那这盘菜就是给自己吃的;如果 30% 以上能开放出去,中国云市场的格局要重新算。

第二:Qwen3.7-Max 给 Zhenwu 写驱动的能力能不能推广。如果模型能给任意芯片写适配,那”芯片厂得自己有大模型团队”会变成行业常识,倒过来也成立——“模型厂得自己有芯片”。

阿里在两条线上都站住了。

参考来源:Alibaba unveils Zhenwu M890 chip and Qwen3.7-Max LLM(Let's Data Science)、Qwen3.7-Max Wrote Its Own Chip's Software in 35-Hour Run(TechTimes)、Alibaba reveals more powerful Zhenwu AI chip, new LLM(CNBC)、Alibaba Bets Big on AI Agents With New Zhenwu M890 Processor(SQ Magazine)