DeepSeek训练大模型到底怎么做到这么省钱的

DeepSeek在成本控制上的水平已经成了行业传说级别的存在：

同期美国公司训类似规模模型的预算是**$1亿到$10亿**。差了至少一个数量级。

省钱秘诀

1. FP8混合精度训练

把训练精度从FP32/FP16降到FP8，显存带宽需求直接砍半。大部分算力瓶颈就卡在显存带宽上，这一刀砍得非常准。

2. 策略性使用Spot实例

算力成本打三折。Spot实例随时可能被回收，但DeepSeek的训练框架做了足够的checkpoint和容错设计来应对这个问题。

3. MoE架构天然省算力

671B参数的模型，每次推理只激活37B。参数量保证了容量和能力，稀疏激活保证了成本可控。

今年1月DeepSeek又公开了一个新方法——Manifold-Constrained Hyper-Connections（mHC），核心论文由创始人梁文锋共同署名。

这个方法做的事情是：在模型内部创建多条信息流，每个混合步骤都有严格的数学约束保证总信息量守恒。测试结果显示，在3B到27B参数规模上mHC都能稳定训练，而不加约束的版本经常不稳定。训练开销只增加6-7%，对大模型来说几乎可以忽略。

有分析师称mHC论文是”惊人的突破”，可能会成为DeepSeek下一代主力模型的基础技术。

OpenAI的CEO自己都承认过：DeepSeek的R1运行成本比OpenAI的同级模型便宜20到50倍。

参考来源：Computerworld报道、南华早报分析