DeepSeek V4今天正式发布:1.6万亿参数,比GPT-5.5便宜8倍,Codeforces干掉了5.4

今天(4月24日),DeepSeek发布了V4。

Bloomberg的标题是「一年后再次颠覆硅谷」。有没有这么夸张暂且不说,但这次确实是两件事一起发:

  • V4-Pro:1.6万亿总参数,激活49B,支持100万token上下文
  • V4-Flash:2840亿总参数,激活13B,同样支持100万token

MIT协议开源,权重直接上了HuggingFace。

先看跑分

竞技编程Codeforces评分,V4-Pro跑出了3206。GPT-5.4的成绩是3168——就是昨天刚被GPT-5.5接替的那个闭源旗舰。

开源模型在竞技编程上追上了。

其他数字:

基准测试 V4-Pro 成绩
LiveCodeBench 93.5%
HMMT 2026数学竞赛 95.2%
IMOAnswerBench 89.8%
MMLU-Pro 87.5%

但有一项没赢:SWE-bench Pro(软件工程实际任务)是55.4%,Kimi K2.6是58.6%。竞技编程赢了,工程实战差了3个点。

DeepSeek官方的说法是:「DeepSeek-V4-Pro-Max在开源模型中取得知识能力的显著突破,稳固确立了当今最强开源模型的地位。」

定价:数量级的差距

这才是让人坐不住的地方。

版本 标准输入 缓存命中输入 输出
V4-Flash $0.14/M $0.028/M $0.28/M
V4-Pro $1.74/M $0.145/M $3.48/M

昨天GPT-5.5发布,标准版输出$30/M,Pro版$180/M。Claude Opus 4.7输出$75/M。

V4-Pro输出**$3.48/M**。

比GPT-5.5标准版便宜8.6倍,比Claude Opus 4.7便宜21倍。

这不是价格优惠,是数量级差距。对调用量大的团队来说,这个差距可以直接影响产品能不能盈利。

能这么便宜,是因为架构

V4引入了混合注意力机制(CSA + HCA):Compressed Sparse Attention处理全局依赖,Heavily Compressed Attention处理局部信息,组合使用。

在100万token长上下文场景下,V4-Pro只需要V3.2的27%推理算力10%的KV缓存

同时用了三项改进:

  • FP4 + FP8混合精度训练,专家层用FP4,其他参数用FP8
  • Manifold-Constrained超连接,强化残差信号传播
  • Muon优化器,提升收敛速度和训练稳定性

预训练数据超过32T tokens。

这种效率不是靠调参做出来的,是架构设计上压缩了计算量,成本才能传导到定价。

时间节点很有意思

GPT-5.5昨天发,DeepSeek V4今天发。

两件事叠在一起,会迫使企业用户重新算账。性能差距还在,但价格差距已经大到需要认真对待了。特别是:

  • 对调用量大的团队:$3.48 vs $30的输出成本,是能决定方案选型的数字
  • 对开源有需求的:MIT协议,权重公开,私有部署没障碍
  • 对中国企业用户:DeepSeek在合规、数据主权方面的顾虑更少

上个月有消息说腾讯、阿里在谈向DeepSeek投资,估值超过200亿美元。一家拒绝VC三年的公司开始谈钱了,V4的发布大概不只是产品里程碑,也是融资前的证明力动作。

接下来能不能把价格优势转化成规模,六个月后会有答案。

参考来源:DeepSeek-V4-Pro Model Card(HuggingFace,deepseek-ai,2026年4月24日);DeepSeek V4 Released: Open-Source 1.6T MoE, 1M Context(ofox.ai,2026年4月24日);DeepSeek Unveils Newest Flagship AI Model a Year after Upending Silicon Valley(Bloomberg,2026年4月24日)