DeepSeek上线快速和专家两个聊天档位:专家模式反而不能传文件,V4还在等
4月8日,DeepSeek悄悄在聊天产品里上线了两个新模式:快速模式(Instant Mode)和专家模式(Expert Mode)。从名字看,专家模式更厉害;但用起来你会发现,「专家」在某些地方反而有限制。 两个模式,一个让你等快速模式的
共 10 篇文章
4月8日,DeepSeek悄悄在聊天产品里上线了两个新模式:快速模式(Instant Mode)和专家模式(Expert Mode)。从名字看,专家模式更厉害;但用起来你会发现,「专家」在某些地方反而有限制。 两个模式,一个让你等快速模式的
DeepSeek即将发布V4,但这次最值得关注的不是模型参数有多大,而是它跑在什么芯片上。 根据《The Information》报道,DeepSeek V4将运行在华为的 Ascend 950PR 芯片上。这是第一个专门为中国本土芯片架构
DeepSeek在数学定理证明领域搞了个专用模型Prover-V2,目标是用AI在Lean 4形式化验证系统里自动证明数学定理。 这个方向为什么重要?数学定理证明是AI能力的一个极端测试场。因为数学不接受”差不多对”——证明要么完全正确,要
“Thinking model”在2025年彻底成了主流概念。几乎每家头部AI公司都推出了自己的推理模型,核心卖点都一样:模型在回答之前先在内部”想一想”。 各家路线OpenAI o系列:最早把”思考”概念产品化的。o1到o3一路迭代,走的
有个数字挺有意思:2025年初,DeepSeek和Qwen加起来占全球AI市场份额不到1%;到2026年1月,这个数字变成了15%。 一年时间,从边缘选手跑到行业不能忽视的位置,速度快得有点离谱。 背后发生了什么,值得梳理一下。 DeepS
如果你最近在关注AI行业,应该注意到一件有意思的事:两个中国开源模型正在抢占同一片市场,而且都在用极低的成本挑战那些动辄要价几十美元每百万token的闭源巨头。 DeepSeek V4和Qwen 3.5(部分渠道已标注为Qwen 3.6-P
DeepSeek在成本控制上的水平已经成了行业传说级别的存在: V3训练成本:约$550万 R1 GPU使用费:约$29.4万 同期美国公司训类似规模模型的预算是**$1亿到$10亿**。差了至少一个数量级。 省钱秘诀1. FP8混合精度训
去年8月DeepSeek放出了V3.1,这是他们第一个混合模型——把V3(通用)和R1(推理)的能力合进了同一个模型里。 架构设计 总参数:671B,每token激活37B 每层256个专家,激活8个 两种模式一键切换: Think mod
今年1月,DeepSeek把R1推理模型直接开源了,社区的反应很直接:没想到开源这边已经卷到这个程度了。 先看硬指标: AIME数学竞赛:77.5分 MATH-500:96.2分 Codeforces编程:94百分位 MMLU:0.849
去年12月DeepSeek发布了V3,这个模型最让同行坐不住的地方不是性能——而是成本。 先看架构V3的设计核心是Mixture of Experts: 总参数量:671B 每个token实际激活:37B 每层256个专家,每次选8个 就好