News - Cocoloop - AI前沿资讯与深度分析

4月8日，DeepSeek悄悄在聊天产品里上线了两个新模式：快速模式（Instant Mode）和专家模式（Expert Mode）。从名字看，专家模式更厉害；但用起来你会发现，「专家」在某些地方反而有限制。两个模式，一个让你等快速模式的

DeepSeek即将发布V4，但这次最值得关注的不是模型参数有多大，而是它跑在什么芯片上。根据《The Information》报道，DeepSeek V4将运行在华为的 Ascend 950PR 芯片上。这是第一个专门为中国本土芯片架构

DeepSeek在数学定理证明领域搞了个专用模型Prover-V2，目标是用AI在Lean 4形式化验证系统里自动证明数学定理。这个方向为什么重要？数学定理证明是AI能力的一个极端测试场。因为数学不接受”差不多对”——证明要么完全正确，要

“Thinking model”在2025年彻底成了主流概念。几乎每家头部AI公司都推出了自己的推理模型，核心卖点都一样：模型在回答之前先在内部”想一想”。各家路线OpenAI o系列：最早把”思考”概念产品化的。o1到o3一路迭代，走的

有个数字挺有意思：2025年初，DeepSeek和Qwen加起来占全球AI市场份额不到1%；到2026年1月，这个数字变成了15%。一年时间，从边缘选手跑到行业不能忽视的位置，速度快得有点离谱。背后发生了什么，值得梳理一下。 DeepS

如果你最近在关注AI行业，应该注意到一件有意思的事：两个中国开源模型正在抢占同一片市场，而且都在用极低的成本挑战那些动辄要价几十美元每百万token的闭源巨头。 DeepSeek V4和Qwen 3.5（部分渠道已标注为Qwen 3.6-P

DeepSeek在成本控制上的水平已经成了行业传说级别的存在： V3训练成本：约$550万 R1 GPU使用费：约$29.4万同期美国公司训类似规模模型的预算是**$1亿到$10亿**。差了至少一个数量级。省钱秘诀1. FP8混合精度训

去年8月DeepSeek放出了V3.1，这是他们第一个混合模型——把V3（通用）和R1（推理）的能力合进了同一个模型里。架构设计总参数：671B，每token激活37B 每层256个专家，激活8个两种模式一键切换： Think mod

今年1月，DeepSeek把R1推理模型直接开源了，社区的反应很直接：没想到开源这边已经卷到这个程度了。先看硬指标： AIME数学竞赛：77.5分 MATH-500：96.2分 Codeforces编程：94百分位 MMLU：0.849

去年12月DeepSeek发布了V3，这个模型最让同行坐不住的地方不是性能——而是成本。先看架构V3的设计核心是Mixture of Experts：总参数量：671B 每个token实际激活：37B 每层256个专家，每次选8个就好

#DeepSeek