DeepSeek V3：671B参数只激活37B，MoE架构的教科书级操作

去年12月DeepSeek发布了V3，这个模型最让同行坐不住的地方不是性能——而是成本。

先看架构

V3的设计核心是Mixture of Experts：

就好比你有256个专科医生，每次问诊只调最相关的8个出来会诊。参数量大但计算成本可控，这就是MoE的精髓。

这套成绩放在2025年底的开源模型里属于顶流水平。

V3的训练成本大约**$5.5M**，同期美国公司训类似规模的模型动辄上亿美元。这个数字一出来，整个行业都在反思：到底是DeepSeek太省了，还是大家太浪费了？

省钱秘诀包括：

V3发布之后一个月，DeepSeek又扔出了R1。这两个模型加在一起，基本上证明了一件事：前沿AI研究不一定非要烧几十亿美元。对于全球AI竞争格局来说，这个信号比任何单个benchmark都重要。

参考来源：DeepSeek V3技术报告、BentoML技术指南