GLM-5.1 SWE-Bench Pro登顶了,更值得说的是:全程华为昇腾,没用一块英伟达芯片

4月7日,Z.ai(原智谱AI)发布了GLM-5.1,754B参数,MoE架构,MIT协议开源。

跑分结果:SWE-Bench Pro 58.4%,全球第一。GPT-5.4是57.7%,Claude Opus 4.6是57.3%。

光这个数字就够刷一波热度了——开源模型在编程能力这个维度上正面超越了两大闭源旗舰。但更有意思的是另一件事:

这个模型的训练全程用的是华为昇腾910B芯片MindSpore框架,没有一块英伟达GPU参与。

模型的技术参数

先过一下硬指标:

参数 数值
总参数量 754B
每次激活 40B
架构 MoE + 动态稀疏注意力
上下文窗口 200K tokens
最大输出 131072 tokens
模型文件大小 1.51TB(HuggingFace)
License MIT

几个benchmark的成绩:

  • SWE-Bench Pro:58.4%(全球第一)
  • CyberGym:68.7%
  • BrowseComp:68.0%
  • AIME 2026:95.3%

SWE-Bench Pro测的是真实GitHub issue修复,不是那种换个马甲就能刷高分的合成数据集,58.4%这个数字含金量是实的。

能跑8小时的Agent

GLM-5.1有个不太被提到但很重要的能力:自主执行能力

官方描述是”独立执行任务超过8小时,跨越数百轮操作、数千次工具调用”——可以不中断地连续工作8小时以上,期间处理几百轮任务、几千次工具调用。

大多数模型在复杂agent任务里撑不过几十轮就开始失控:上下文窗口塞满了,推理开始抽风,工具调用开始循环。GLM-5.1显然在这块做了专项优化,不是只靠大上下文窗口硬撑。

这对企业级Agent部署是个实质性进步,不是benchmark刷分。

最值得说的:没有英伟达

训练硬件:华为昇腾910B
训练框架:华为MindSpore

这不是一个小细节。

长期以来,训练大规模模型的最优路径几乎只有英伟达CUDA这一条。H100、H800、A100——能用哪个用哪个,MindSpore在工程成熟度上距离PyTorch差距一直不小。

GLM-5.1证明了这条路是可以走通的:不只是跑起来了,而是训出了打败GPT-5.4和Claude Opus 4.6的模型。

“GLM-5.1 Tops SWE-Bench Pro With Zero NVIDIA Hardware”
—— Awesome Agents

这事的政治意义和技术意义一样大。美国对华的AI芯片出口管制现在已经是实打实的生产约束,不是未来威胁。GLM-5.1是一个实验结果:在算力受限的条件下,中国AI团队能做到什么

答案目前是:SWE-Bench Pro全球第一,MIT协议开源,API定价$1.26/M token。

价格放出来比一比

GLM-5.1 API定价:

  • 输入:$1.26/M tokens
  • 输出:$3.96/M tokens

作为对比:Claude Opus 4.6差不多是$15/$75,GPT-5.4也在同一数量级。

SWE-Bench Pro全球第一的编程能力放在这个价格上,对于AI编程基础设施的开发者来说,选项很清晰。

当然,SWE-Bench Pro不能代表所有场景。GLM-5.1在数学推理和通用benchmark上仍然落后于头部闭源模型,原文没有回避这点。这不是一个全能冠军,是一个在编程+Agent方向打出差异化的专项模型。

一个值得关注的趋势

最近一年,Z.ai(GLM-5.1)、DeepSeek(V3.2)、Kimi K2等中国开源模型接连在各个专项benchmark上登顶,MIT或Apache协议,API价格碾压闭源对手。

Meta宣布部分闭源,OpenAI从未真正开源旗舰——反而是中国公司在坚持把权重公开出来。

这个格局在2025年初几乎不可想象。

参考来源:Z.ai Releases GLM-5.1: 754B Model Tops SWE-Bench Pro(WinBuzzer);GLM-5.1 Tops SWE-Bench Pro With Zero NVIDIA Hardware(Awesome Agents);GLM-5.1 vs Claude, GPT, Gemini, DeepSeek: how Zhipu AI's model stacks up(APIdog)