DeepSeek V3.1:把通用模型和推理模型揉到一起是什么体验

 · 

去年8月DeepSeek放出了V3.1,这是他们第一个混合模型——把V3(通用)和R1(推理)的能力合进了同一个模型里。

架构设计

  • 总参数:671B,每token激活37B
  • 每层256个专家,激活8个
  • 两种模式一键切换:
    • Think mode(deepseek-reasoner):多步推理+工具调用
    • Non-think mode(deepseek-chat):日常对话,轻快响应

两种模式共享权重,128K上下文。

凭什么说”混合”好?

直接看SWE-bench Verified的分数:

  • V3.1:66.0%
  • R1-0528:44.6%

编程benchmark上混合模型碾压了纯推理模型。Think mode在推理密集任务上能达到R1大约**90-95%**的水准,而且响应速度更快。

本质上V3.1证明了一件事:单一模型可以同时搞定”快问快答”和”深度推理”这两个以前需要分开部署的场景。

训练细节

基于V3.1-Base,额外训练了8400亿token

  • 32K阶段:6300亿token
  • 128K扩展阶段:2090亿token

重点提升了长上下文理解、工具使用和agent工作流。DeepSeek官方把V3.1定位为”迈向Agent时代的第一步”。

从实际使用来看,有了V3.1之后就不需要在”用通用模型还是推理模型”之间纠结了——丢过去让它自己判断就行。

参考来源:The Decoder报道、DeepSeek官方发布