智谱GLM-4.5:8张H20就能跑起来的国产大模型

 · 

智谱AI的GLM-4.5做了一件很有信号意义的事——专门针对NVIDIA H20(中国特供版GPU)做了优化,8张卡就能跑全量模型。

为什么这件事值得说

美国对华芯片出口管制之后,中国AI公司能买到的最好NVIDIA GPU就是H20——一个被”阉割”了互联计算带宽的版本。很多海外前沿模型在H20上跑不起来或者效率很低。

智谱选择直面这个约束条件,把模型架构和推理流程专门适配H20的硬件特性。8张H20的成本和门槛比起动辄几十上百张A100的方案,友好了太多。

技术适配

具体的优化包括:

  • 针对H20的显存带宽特征调整了注意力计算方式
  • 模型分片策略专门为8卡配置设计
  • 推理阶段的量化方案针对H20的计算精度做了适配

性能表现

GLM-4.5在中文理解和生成任务上的表现处于国产第一梯队。和GPT-4级别的模型在大部分中文benchmark上打平或接近。英文任务上有差距,但差距在缩小。

更重要的是实际部署成本——对于国内企业来说,能用可以合法采购的硬件跑出接近一线的效果,这个实用价值比benchmark分数重要得多。

行业影响

智谱这个做法代表了中国AI行业应对芯片限制的一种思路:不等最好的硬件,用现有硬件把效果做到最好。

这和DeepSeek用有限算力把成本压到极低的策略一脉相承。当外部条件受限时,倒逼出的工程优化能力反而可能成为长期竞争力。

参考来源:智谱AI官方发布