阿里模型自写驱动，自家芯片跑出10倍提速 - News

5 月 20 日，杭州云栖大会，阿里端了三盘菜上来——一颗芯片、一个模型、一台机柜。

但真正让人记住这场发布会的，是一段 35 小时的演示。

这场演示干了一件反直觉的事

阿里把刚发布的 Qwen3.7-Max 模型，放到刚发布的 Zhenwu M890 芯片上，让它干一件听上去很离谱的活——自己写适配自己的底层内核驱动。

阿里这颗 Zhenwu M890 是新东西，外界没有任何文档。Qwen3.7-Max 要做的就是：摸黑跑在上面，把 Extend Attention 这个性能关键的算子，从头优化一遍。

35 小时跑下来——

操作	数字
工具调用	1,158 次
内核评估	432 次
架构重设计	5 轮
最终提速（几何平均）	10×

讲人话：模型自己在一颗它从没见过的芯片上，从零摸索出了驱动写法，把芯片性能拉到原本的 10 倍。

这种事，过去通常需要芯片厂的底层工程师团队干一两个月。

Zhenwu M890 这颗芯片本身

参数表抄一下——

HBM3 显存：144 GB（比上一代 Zhenwu 810E 多 50%）
互连带宽：800 GB/s
整体算力：3× 上一代

144 GB 显存是这颗芯片真正的卖点。Nvidia H200 单卡 141 GB，B200 单卡 192 GB——Zhenwu M890 卡在两者之间。够大模型推理用，更重要的是够 agentic workload（要长上下文、多 step）用。

阿里这次还顺势透露了一个数：已经发了 56 万颗 Zhenwu 芯片，给 400 多家客户，覆盖 20 个行业。

不是 demo 阶段了，是真在跑。

Qwen3.7-Max 模型本身

这模型对外讲的几个关键点：

上下文窗口 100 万 token（上一代 Qwen3.6-Max-Preview 是 25.6 万）
专门为长时间任务和代码任务调优
适配 Zhenwu M890 做了协同设计

100 万 token 不算行业最长，但够 agentic 任务用——一个智能体跑几小时、几十小时不丢上下文，这就是入场券。

为什么这场发布值得专门写一篇

三个点凑到了一起：

第一，自研芯片 + 自研模型 + 自研机柜——Panjiu AL128 是配套的整机柜方案。这是从训练到推理的全栈闭环。

第二，模型给自家芯片写驱动——这是个非常聪明的演示选择。它告诉客户两件事：芯片足够好，模型足够智能。同时，阿里芯片厂未来招底层工程师的预算压力也小了。

第三，56 万颗已发货。这不是 PPT 芯片。

把这三个点摞起来，意思就清楚了：阿里正在做中国版的 Nvidia + OpenAI——自己出芯片、自己出模型、自己卖整机方案。

而且全部用自己的钱、自己的客户基数证明走得通。

跟 Nvidia 的真实距离

参数对照不能省——

	Zhenwu M890	Nvidia H200	Nvidia B200
显存	144 GB HBM3	141 GB HBM3e	192 GB HBM3e
互连	800 GB/s	NVLink 900 GB/s	NVLink 1.8 TB/s
生态	CUDA 替代正在搭	CUDA	CUDA

硬件参数已经不输上一代 H200。但软件生态——CUDA、PyTorch 的算子库、推理框架的支持——这一块差距还在。

Qwen3.7-Max 自己写内核这件事，多少能补这块短板：模型本身就是个超级编译器了，缺什么驱动就让它写。

不是说这条路完全走得通，但至少这是中国厂商绕开 CUDA 的一种可能解法。

接下来盯什么

两件事——

第一：阿里云今年下半年开放多少 Zhenwu 算力给外部客户。如果 56 万颗里多数还是阿里自用，那这盘菜就是给自己吃的；如果 30% 以上能开放出去，中国云市场的格局要重新算。

第二：Qwen3.7-Max 给 Zhenwu 写驱动的能力能不能推广。如果模型能给任意芯片写适配，那”芯片厂得自己有大模型团队”会变成行业常识，倒过来也成立——“模型厂得自己有芯片”。

阿里在两条线上都站住了。

参考来源：Alibaba unveils Zhenwu M890 chip and Qwen3.7-Max LLM（Let's Data Science）、Qwen3.7-Max Wrote Its Own Chip's Software in 35-Hour Run（TechTimes）、Alibaba reveals more powerful Zhenwu AI chip,CocoLoop、 new LLM（CNBC）、Alibaba Bets Big on AI Agents With New Zhenwu M890 Processor（SQ Magazine）