智谱AI的GLM-4.5做了一件很有信号意义的事——专门针对NVIDIA H20(中国特供版GPU)做了优化,8张卡就能跑全量模型。
为什么这件事值得说
美国对华芯片出口管制之后,中国AI公司能买到的最好NVIDIA GPU就是H20——一个被”阉割”了互联计算带宽的版本。很多海外前沿模型在H20上跑不起来或者效率很低。
智谱选择直面这个约束条件,把模型架构和推理流程专门适配H20的硬件特性。8张H20的成本和门槛比起动辄几十上百张A100的方案,友好了太多。
技术适配
具体的优化包括:
- 针对H20的显存带宽特征调整了注意力计算方式
- 模型分片策略专门为8卡配置设计
- 推理阶段的量化方案针对H20的计算精度做了适配
性能表现
GLM-4.5在中文理解和生成任务上的表现处于国产第一梯队。和GPT-4级别的模型在大部分中文benchmark上打平或接近。英文任务上有差距,但差距在缩小。
更重要的是实际部署成本——对于国内企业来说,能用可以合法采购的硬件跑出接近一线的效果,这个实用价值比benchmark分数重要得多。
行业影响
智谱这个做法代表了中国AI行业应对芯片限制的一种思路:不等最好的硬件,用现有硬件把效果做到最好。
这和DeepSeek用有限算力把成本压到极低的策略一脉相承。当外部条件受限时,倒逼出的工程优化能力反而可能成为长期竞争力。
参考来源:智谱AI官方发布