去年12月DeepSeek发布了V3,这个模型最让同行坐不住的地方不是性能——而是成本。
先看架构
V3的设计核心是Mixture of Experts:
- 总参数量:671B
- 每个token实际激活:37B
- 每层256个专家,每次选8个
就好比你有256个专科医生,每次问诊只调最相关的8个出来会诊。参数量大但计算成本可控,这就是MoE的精髓。
跑分表现
- MMLU:87.1%(GPT-4o同级别)
- MATH-500:90.2%
- Codeforces:51.6百分位
- GPQA Diamond:59.1%
这套成绩放在2025年底的开源模型里属于顶流水平。
550万美元训一个顶级模型
V3的训练成本大约**$5.5M**,同期美国公司训类似规模的模型动辄上亿美元。这个数字一出来,整个行业都在反思:到底是DeepSeek太省了,还是大家太浪费了?
省钱秘诀包括:
- FP8混合精度训练,显存带宽需求直接砍半
- 策略性使用spot实例,算力成本打三折
- MoE架构本身就是天然的算力节约器
为什么重要
V3发布之后一个月,DeepSeek又扔出了R1。这两个模型加在一起,基本上证明了一件事:前沿AI研究不一定非要烧几十亿美元。对于全球AI竞争格局来说,这个信号比任何单个benchmark都重要。
参考来源:DeepSeek V3技术报告、BentoML技术指南