DeepSeek 2026-04-07 DeepSeek V3.1:把通用模型和推理模型揉到一起是什么体验 去年8月DeepSeek放出了V3.1,这是他们第一个混合模型——把V3(通用)和R1(推理)的能力合进了同一个模型里。 架构设计 总参数:671B,每token激活37B 每层256个专家,激活8个 两种模式一键切换: Think mod