DeepSeek训练大模型到底怎么做到这么省钱的

 · 

DeepSeek在成本控制上的水平已经成了行业传说级别的存在:

  • V3训练成本:约$550万
  • R1 GPU使用费:约$29.4万

同期美国公司训类似规模模型的预算是**$1亿到$10亿**。差了至少一个数量级。

省钱秘诀

1. FP8混合精度训练

把训练精度从FP32/FP16降到FP8,显存带宽需求直接砍半。大部分算力瓶颈就卡在显存带宽上,这一刀砍得非常准。

2. 策略性使用Spot实例

算力成本打三折。Spot实例随时可能被回收,但DeepSeek的训练框架做了足够的checkpoint和容错设计来应对这个问题。

3. MoE架构天然省算力

671B参数的模型,每次推理只激活37B。参数量保证了容量和能力,稀疏激活保证了成本可控。

新技术:mHC

今年1月DeepSeek又公开了一个新方法——Manifold-Constrained Hyper-Connections(mHC),核心论文由创始人梁文锋共同署名。

这个方法做的事情是:在模型内部创建多条信息流,每个混合步骤都有严格的数学约束保证总信息量守恒。测试结果显示,在3B到27B参数规模上mHC都能稳定训练,而不加约束的版本经常不稳定。训练开销只增加6-7%,对大模型来说几乎可以忽略。

有分析师称mHC论文是”惊人的突破”,可能会成为DeepSeek下一代主力模型的基础技术。

OpenAI的CEO自己都承认过:DeepSeek的R1运行成本比OpenAI的同级模型便宜20到50倍

参考来源:Computerworld报道、南华早报分析