4月7日,Z.ai(原智谱AI)发布了GLM-5.1,754B参数,MoE架构,MIT协议开源。
跑分结果:SWE-Bench Pro 58.4%,全球第一。GPT-5.4是57.7%,Claude Opus 4.6是57.3%。
光这个数字就够刷一波热度了——开源模型在编程能力这个维度上正面超越了两大闭源旗舰。但更有意思的是另一件事:
这个模型的训练全程用的是华为昇腾910B芯片和MindSpore框架,没有一块英伟达GPU参与。
模型的技术参数
先过一下硬指标:
| 参数 | 数值 |
|---|---|
| 总参数量 | 754B |
| 每次激活 | 40B |
| 架构 | MoE + 动态稀疏注意力 |
| 上下文窗口 | 200K tokens |
| 最大输出 | 131072 tokens |
| 模型文件大小 | 1.51TB(HuggingFace) |
| License | MIT |
几个benchmark的成绩:
- SWE-Bench Pro:58.4%(全球第一)
- CyberGym:68.7%
- BrowseComp:68.0%
- AIME 2026:95.3%
SWE-Bench Pro测的是真实GitHub issue修复,不是那种换个马甲就能刷高分的合成数据集,58.4%这个数字含金量是实的。
能跑8小时的Agent
GLM-5.1有个不太被提到但很重要的能力:自主执行能力。
官方描述是”独立执行任务超过8小时,跨越数百轮操作、数千次工具调用”——可以不中断地连续工作8小时以上,期间处理几百轮任务、几千次工具调用。
大多数模型在复杂agent任务里撑不过几十轮就开始失控:上下文窗口塞满了,推理开始抽风,工具调用开始循环。GLM-5.1显然在这块做了专项优化,不是只靠大上下文窗口硬撑。
这对企业级Agent部署是个实质性进步,不是benchmark刷分。
最值得说的:没有英伟达
训练硬件:华为昇腾910B
训练框架:华为MindSpore
这不是一个小细节。
长期以来,训练大规模模型的最优路径几乎只有英伟达CUDA这一条。H100、H800、A100——能用哪个用哪个,MindSpore在工程成熟度上距离PyTorch差距一直不小。
GLM-5.1证明了这条路是可以走通的:不只是跑起来了,而是训出了打败GPT-5.4和Claude Opus 4.6的模型。
“GLM-5.1 Tops SWE-Bench Pro With Zero NVIDIA Hardware”
—— Awesome Agents
这事的政治意义和技术意义一样大。美国对华的AI芯片出口管制现在已经是实打实的生产约束,不是未来威胁。GLM-5.1是一个实验结果:在算力受限的条件下,中国AI团队能做到什么。
答案目前是:SWE-Bench Pro全球第一,MIT协议开源,API定价$1.26/M token。
价格放出来比一比
GLM-5.1 API定价:
- 输入:$1.26/M tokens
- 输出:$3.96/M tokens
作为对比:Claude Opus 4.6差不多是$15/$75,GPT-5.4也在同一数量级。
SWE-Bench Pro全球第一的编程能力放在这个价格上,对于AI编程基础设施的开发者来说,选项很清晰。
当然,SWE-Bench Pro不能代表所有场景。GLM-5.1在数学推理和通用benchmark上仍然落后于头部闭源模型,原文没有回避这点。这不是一个全能冠军,是一个在编程+Agent方向打出差异化的专项模型。
一个值得关注的趋势
最近一年,Z.ai(GLM-5.1)、DeepSeek(V3.2)、Kimi K2等中国开源模型接连在各个专项benchmark上登顶,MIT或Apache协议,API价格碾压闭源对手。
Meta宣布部分闭源,OpenAI从未真正开源旗舰——反而是中国公司在坚持把权重公开出来。
这个格局在2025年初几乎不可想象。
参考来源:Z.ai Releases GLM-5.1: 754B Model Tops SWE-Bench Pro(WinBuzzer);GLM-5.1 Tops SWE-Bench Pro With Zero NVIDIA Hardware(Awesome Agents);GLM-5.1 vs Claude, GPT, Gemini, DeepSeek: how Zhipu AI's model stacks up(APIdog)