今天(4月24日),DeepSeek发布了V4。
Bloomberg的标题是「一年后再次颠覆硅谷」。有没有这么夸张暂且不说,但这次确实是两件事一起发:
- V4-Pro:1.6万亿总参数,激活49B,支持100万token上下文
- V4-Flash:2840亿总参数,激活13B,同样支持100万token
MIT协议开源,权重直接上了HuggingFace。
先看跑分
竞技编程Codeforces评分,V4-Pro跑出了3206。GPT-5.4的成绩是3168——就是昨天刚被GPT-5.5接替的那个闭源旗舰。
开源模型在竞技编程上追上了。
其他数字:
| 基准测试 | V4-Pro 成绩 |
|---|---|
| LiveCodeBench | 93.5% |
| HMMT 2026数学竞赛 | 95.2% |
| IMOAnswerBench | 89.8% |
| MMLU-Pro | 87.5% |
但有一项没赢:SWE-bench Pro(软件工程实际任务)是55.4%,Kimi K2.6是58.6%。竞技编程赢了,工程实战差了3个点。
DeepSeek官方的说法是:「DeepSeek-V4-Pro-Max在开源模型中取得知识能力的显著突破,稳固确立了当今最强开源模型的地位。」
定价:数量级的差距
这才是让人坐不住的地方。
| 版本 | 标准输入 | 缓存命中输入 | 输出 |
|---|---|---|---|
| V4-Flash | $0.14/M | $0.028/M | $0.28/M |
| V4-Pro | $1.74/M | $0.145/M | $3.48/M |
昨天GPT-5.5发布,标准版输出$30/M,Pro版$180/M。Claude Opus 4.7输出$75/M。
V4-Pro输出**$3.48/M**。
比GPT-5.5标准版便宜8.6倍,比Claude Opus 4.7便宜21倍。
这不是价格优惠,是数量级差距。对调用量大的团队来说,这个差距可以直接影响产品能不能盈利。
能这么便宜,是因为架构
V4引入了混合注意力机制(CSA + HCA):Compressed Sparse Attention处理全局依赖,Heavily Compressed Attention处理局部信息,组合使用。
在100万token长上下文场景下,V4-Pro只需要V3.2的27%推理算力和10%的KV缓存。
同时用了三项改进:
- FP4 + FP8混合精度训练,专家层用FP4,其他参数用FP8
- Manifold-Constrained超连接,强化残差信号传播
- Muon优化器,提升收敛速度和训练稳定性
预训练数据超过32T tokens。
这种效率不是靠调参做出来的,是架构设计上压缩了计算量,成本才能传导到定价。
时间节点很有意思
GPT-5.5昨天发,DeepSeek V4今天发。
两件事叠在一起,会迫使企业用户重新算账。性能差距还在,但价格差距已经大到需要认真对待了。特别是:
- 对调用量大的团队:$3.48 vs $30的输出成本,是能决定方案选型的数字
- 对开源有需求的:MIT协议,权重公开,私有部署没障碍
- 对中国企业用户:DeepSeek在合规、数据主权方面的顾虑更少
上个月有消息说腾讯、阿里在谈向DeepSeek投资,估值超过200亿美元。一家拒绝VC三年的公司开始谈钱了,V4的发布大概不只是产品里程碑,也是融资前的证明力动作。
接下来能不能把价格优势转化成规模,六个月后会有答案。
参考来源:DeepSeek-V4-Pro Model Card(HuggingFace,deepseek-ai,2026年4月24日);DeepSeek V4 Released: Open-Source 1.6T MoE, 1M Context(ofox.ai,2026年4月24日);DeepSeek Unveils Newest Flagship AI Model a Year after Upending Silicon Valley(Bloomberg,2026年4月24日)