DeepSeek V3:671B参数只激活37B,MoE架构的教科书级操作

 · 

去年12月DeepSeek发布了V3,这个模型最让同行坐不住的地方不是性能——而是成本

先看架构

V3的设计核心是Mixture of Experts

  • 总参数量:671B
  • 每个token实际激活:37B
  • 每层256个专家,每次选8个

就好比你有256个专科医生,每次问诊只调最相关的8个出来会诊。参数量大但计算成本可控,这就是MoE的精髓。

跑分表现

  • MMLU:87.1%(GPT-4o同级别)
  • MATH-500:90.2%
  • Codeforces:51.6百分位
  • GPQA Diamond:59.1%

这套成绩放在2025年底的开源模型里属于顶流水平。

550万美元训一个顶级模型

V3的训练成本大约**$5.5M**,同期美国公司训类似规模的模型动辄上亿美元。这个数字一出来,整个行业都在反思:到底是DeepSeek太省了,还是大家太浪费了?

省钱秘诀包括:

  • FP8混合精度训练,显存带宽需求直接砍半
  • 策略性使用spot实例,算力成本打三折
  • MoE架构本身就是天然的算力节约器

为什么重要

V3发布之后一个月,DeepSeek又扔出了R1。这两个模型加在一起,基本上证明了一件事:前沿AI研究不一定非要烧几十亿美元。对于全球AI竞争格局来说,这个信号比任何单个benchmark都重要。

参考来源:DeepSeek V3技术报告、BentoML技术指南