GLM-5.1 SWE-Bench Pro登顶了，更值得说的是：全程华为昇腾，没用一块英伟达芯片 - News

4月7日，Z.ai（原智谱AI）发布了GLM-5.1，754B参数，MoE架构，MIT协议开源。

跑分结果：SWE-Bench Pro 58.4%，全球第一。GPT-5.4是57.7%，Claude Opus 4.6是57.3%。

光这个数字就够刷一波热度了——开源模型在编程能力这个维度上正面超越了两大闭源旗舰。但更有意思的是另一件事：

这个模型的训练全程用的是华为昇腾910B芯片和MindSpore框架，没有一块英伟达GPU参与。

模型的技术参数

先过一下硬指标：

参数	数值
总参数量	754B
每次激活	40B
架构	MoE + 动态稀疏注意力
上下文窗口	200K tokens
最大输出	131072 tokens
模型文件大小	1.51TB（HuggingFace）
License	MIT

几个benchmark的成绩：

SWE-Bench Pro：58.4%（全球第一）
CyberGym：68.7%
BrowseComp：68.0%
AIME 2026：95.3%

SWE-Bench Pro测的是真实GitHub issue修复，不是那种换个马甲就能刷高分的合成数据集，58.4%这个数字含金量是实的。

能跑8小时的Agent

GLM-5.1有个不太被提到但很重要的能力：自主执行能力。

官方描述是”独立执行任务超过8小时，跨越数百轮操作、数千次工具调用”——可以不中断地连续工作8小时以上，期间处理几百轮任务、几千次工具调用。

大多数模型在复杂agent任务里撑不过几十轮就开始失控：上下文窗口塞满了，推理开始抽风，工具调用开始循环。GLM-5.1显然在这块做了专项优化，不是只靠大上下文窗口硬撑。

这对企业级Agent部署是个实质性进步，不是benchmark刷分。

最值得说的：没有英伟达

训练硬件：华为昇腾910B
训练框架：华为MindSpore

这不是一个小细节。

长期以来，训练大规模模型的最优路径几乎只有英伟达CUDA这一条。H100、H800、A100——能用哪个用哪个，MindSpore在工程成熟度上距离PyTorch差距一直不小。

GLM-5.1证明了这条路是可以走通的：不只是跑起来了，而是训出了打败GPT-5.4和Claude Opus 4.6的模型。

“GLM-5.1 Tops SWE-Bench Pro With Zero NVIDIA Hardware”
—— Awesome Agents

这事的政治意义和技术意义一样大。美国对华的AI芯片出口管制现在已经是实打实的生产约束，不是未来威胁。GLM-5.1是一个实验结果：在算力受限的条件下，中国AI团队能做到什么。

答案目前是：SWE-Bench Pro全球第一，MIT协议开源，API定价$1.26/M token。

价格放出来比一比

GLM-5.1 API定价：

输入：$1.26/M tokens
输出：$3.96/M tokens

作为对比：Claude Opus 4.6差不多是$15/$75，GPT-5.4也在同一数量级。

SWE-Bench Pro全球第一的编程能力放在这个价格上，对于AI编程基础设施的开发者来说，选项很清晰。

当然，SWE-Bench Pro不能代表所有场景。GLM-5.1在数学推理和通用benchmark上仍然落后于头部闭源模型，原文没有回避这点。这不是一个全能冠军，是一个在编程+Agent方向打出差异化的专项模型。

一个值得关注的趋势

最近一年，Z.ai（GLM-5.1）、DeepSeek（V3.2）、Kimi K2等中国开源模型接连在各个专项benchmark上登顶，MIT或Apache协议，API价格碾压闭源对手。

Meta宣布部分闭源，OpenAI从未真正开源旗舰——反而是中国公司在坚持把权重公开出来。

这个格局在2025年初几乎不可想象。

参考来源：Z.ai Releases GLM-5.1: 754B Model Tops SWE-Bench Pro（WinBuzzer）；GLM-5.1 Tops SWE-Bench Pro With Zero NVIDIA Hardware（Awesome Agents）；GLM-5.1 vs Claude, GPT, Gemini, DeepSeek: how Zhipu AI's model stacks up（APIdog）