去年8月DeepSeek放出了V3.1,这是他们第一个混合模型——把V3(通用)和R1(推理)的能力合进了同一个模型里。
架构设计
- 总参数:671B,每token激活37B
- 每层256个专家,激活8个
- 两种模式一键切换:
- Think mode(deepseek-reasoner):多步推理+工具调用
- Non-think mode(deepseek-chat):日常对话,轻快响应
两种模式共享权重,128K上下文。
凭什么说”混合”好?
直接看SWE-bench Verified的分数:
- V3.1:66.0%
- R1-0528:44.6%
编程benchmark上混合模型碾压了纯推理模型。Think mode在推理密集任务上能达到R1大约**90-95%**的水准,而且响应速度更快。
本质上V3.1证明了一件事:单一模型可以同时搞定”快问快答”和”深度推理”这两个以前需要分开部署的场景。
训练细节
基于V3.1-Base,额外训练了8400亿token:
- 32K阶段:6300亿token
- 128K扩展阶段:2090亿token
重点提升了长上下文理解、工具使用和agent工作流。DeepSeek官方把V3.1定位为”迈向Agent时代的第一步”。
从实际使用来看,有了V3.1之后就不需要在”用通用模型还是推理模型”之间纠结了——丢过去让它自己判断就行。
参考来源:The Decoder报道、DeepSeek官方发布