DeepSeek V3.1：把通用模型和推理模型揉到一起是什么体验

去年8月DeepSeek放出了V3.1，这是他们第一个混合模型——把V3（通用）和R1（推理）的能力合进了同一个模型里。

架构设计

总参数：671B，每token激活37B
每层256个专家，激活8个
两种模式一键切换：
- Think mode（deepseek-reasoner）：多步推理+工具调用
- Non-think mode（deepseek-chat）：日常对话，轻快响应

两种模式共享权重，128K上下文。

直接看SWE-bench Verified的分数：

编程benchmark上混合模型碾压了纯推理模型。Think mode在推理密集任务上能达到R1大约**90-95%**的水准，而且响应速度更快。

本质上V3.1证明了一件事：单一模型可以同时搞定”快问快答”和”深度推理”这两个以前需要分开部署的场景。

基于V3.1-Base，额外训练了8400亿token：

重点提升了长上下文理解、工具使用和agent工作流。DeepSeek官方把V3.1定位为”迈向Agent时代的第一步”。

从实际使用来看，有了V3.1之后就不需要在”用通用模型还是推理模型”之间纠结了——丢过去让它自己判断就行。

参考来源：The Decoder报道、DeepSeek官方发布