DeepSeek V4今天正式发布：1.6万亿参数，比GPT-5.5便宜8倍，Codeforces干掉了5.4 - News

今天（4月24日），DeepSeek发布了V4。

Bloomberg的标题是「一年后再次颠覆硅谷」。有没有这么夸张暂且不说，但这次确实是两件事一起发：

V4-Pro：1.6万亿总参数，激活49B，支持100万token上下文
V4-Flash：2840亿总参数，激活13B，同样支持100万token

MIT协议开源，权重直接上了HuggingFace。

先看跑分

竞技编程Codeforces评分，V4-Pro跑出了3206。GPT-5.4的成绩是3168——就是昨天刚被GPT-5.5接替的那个闭源旗舰。

开源模型在竞技编程上追上了。

其他数字：

基准测试	V4-Pro 成绩
LiveCodeBench	93.5%
HMMT 2026数学竞赛	95.2%
IMOAnswerBench	89.8%
MMLU-Pro	87.5%

但有一项没赢：SWE-bench Pro（软件工程实际任务）是55.4%，Kimi K2.6是58.6%。竞技编程赢了，工程实战差了3个点。

DeepSeek官方的说法是：「DeepSeek-V4-Pro-Max在开源模型中取得知识能力的显著突破，稳固确立了当今最强开源模型的地位。」

定价：数量级的差距

这才是让人坐不住的地方。

版本	标准输入	缓存命中输入	输出
V4-Flash	$0.14/M	$0.028/M	$0.28/M
V4-Pro	$1.74/M	$0.145/M	$3.48/M

昨天GPT-5.5发布，标准版输出$30/M，Pro版$180/M。Claude Opus 4.7输出$75/M。

V4-Pro输出**$3.48/M**。

比GPT-5.5标准版便宜8.6倍，比Claude Opus 4.7便宜21倍。

这不是价格优惠，是数量级差距。对调用量大的团队来说，这个差距可以直接影响产品能不能盈利。

能这么便宜，是因为架构

V4引入了混合注意力机制（CSA + HCA）：Compressed Sparse Attention处理全局依赖，Heavily Compressed Attention处理局部信息，组合使用。

在100万token长上下文场景下，V4-Pro只需要V3.2的27%推理算力和10%的KV缓存。

同时用了三项改进：

FP4 + FP8混合精度训练，专家层用FP4，其他参数用FP8
Manifold-Constrained超连接，强化残差信号传播
Muon优化器，提升收敛速度和训练稳定性

预训练数据超过32T tokens。

这种效率不是靠调参做出来的，是架构设计上压缩了计算量，成本才能传导到定价。

时间节点很有意思

GPT-5.5昨天发，DeepSeek V4今天发。

两件事叠在一起，会迫使企业用户重新算账。性能差距还在，但价格差距已经大到需要认真对待了。特别是：

对调用量大的团队：$3.48 vs $30的输出成本，是能决定方案选型的数字
对开源有需求的：MIT协议，权重公开，私有部署没障碍
对中国企业用户：DeepSeek在合规、数据主权方面的顾虑更少

上个月有消息说腾讯、阿里在谈向DeepSeek投资，估值超过200亿美元。一家拒绝VC三年的公司开始谈钱了，V4的发布大概不只是产品里程碑，也是融资前的证明力动作。

接下来能不能把价格优势转化成规模，六个月后会有答案。

参考来源：DeepSeek-V4-Pro Model Card（HuggingFace，deepseek-ai，2026年4月24日）；DeepSeek V4 Released: Open-Source 1.6T MoE, 1M Context（ofox.ai，2026年4月24日）；DeepSeek Unveils Newest Flagship AI Model a Year after Upending Silicon Valley（Bloomberg，2026年4月24日）