DeepSeek在成本控制上的水平已经成了行业传说级别的存在:
- V3训练成本:约$550万
- R1 GPU使用费:约$29.4万
同期美国公司训类似规模模型的预算是**$1亿到$10亿**。差了至少一个数量级。
省钱秘诀
1. FP8混合精度训练
把训练精度从FP32/FP16降到FP8,显存带宽需求直接砍半。大部分算力瓶颈就卡在显存带宽上,这一刀砍得非常准。
2. 策略性使用Spot实例
算力成本打三折。Spot实例随时可能被回收,但DeepSeek的训练框架做了足够的checkpoint和容错设计来应对这个问题。
3. MoE架构天然省算力
671B参数的模型,每次推理只激活37B。参数量保证了容量和能力,稀疏激活保证了成本可控。
新技术:mHC
今年1月DeepSeek又公开了一个新方法——Manifold-Constrained Hyper-Connections(mHC),核心论文由创始人梁文锋共同署名。
这个方法做的事情是:在模型内部创建多条信息流,每个混合步骤都有严格的数学约束保证总信息量守恒。测试结果显示,在3B到27B参数规模上mHC都能稳定训练,而不加约束的版本经常不稳定。训练开销只增加6-7%,对大模型来说几乎可以忽略。
有分析师称mHC论文是”惊人的突破”,可能会成为DeepSeek下一代主力模型的基础技术。
OpenAI的CEO自己都承认过:DeepSeek的R1运行成本比OpenAI的同级模型便宜20到50倍。
参考来源:Computerworld报道、南华早报分析