DeepSeek V4只发了个preview版。
很多人没注意到这件事。4月24日DeepSeek端出V4 Flash和V4 Pro,但两个都是预览版。正式版要等到下半年——而且不是因为模型还没准备好,是因为Huawei的芯片还没量产到位。
4月26日Bloomberg援引央视下属”玉渊潭天”账号披露了内幕,把DeepSeek过去几个月做的事说清楚了。
不是模型慢了,是芯片没到
DeepSeek团队过去几个月没怎么发新功能,做的是把整个训练框架从NVIDIA迁到华为Ascend。
这事比发新模型难得多。CUDA生态在AI圈子里盘根错节十几年,把一个万亿参数模型的训练流程从CUDA迁到华为的CANN(Compute Architecture for Neural Networks),要重写:
- 算子库(matmul、attention、layernorm 等等几百个内核)
- 分布式调度(NCCL换成HCCL)
- 混合精度训练(FP8、BF16在新芯片上的behavior)
- checkpointing和容错
这种迁移工作,不是半年能搞定的。DeepSeek做完了,但硬件这头还在等。
Ascend 950PR是什么,为什么非要等它
DeepSeek自己坦白说了:V4在2026上半年有”throughput issues”——意思是模型能跑,但跑得不够快、不够稳。
要等的,是华为的Ascend 950PR supernodes量产到规模。950PR和950DT是华为今年年底前会出货的下一代AI芯片,主打SuperNode架构——把一堆芯片用高速互连堆成一个超级节点,性能向NVIDIA NVLink那个量级看齐。
只有950PR上规模,DeepSeek V4正式版才能真正放出来跑全量inference。所以你现在看到的V4 Flash和V4 Pro预览版,本质上是为950PR做的产品宣发预热——先把模型能力的故事讲出去,等下半年硬件到位,立刻把正式版扔进市场。
华为方面也给了一个对应的承诺:完整Ascend SuperNode产品线对DeepSeek V4实现了”全适配”,inference性能”显著提升”。CANN这套软件栈在过去几个月专门为V4做了适配。两边的协同节奏卡得很死。
中国AI的”双轨叙事”,第一次被明牌
这件事最有意思的,不是技术细节,是叙事。
过去半年,中国AI圈有个心照不宣的双轨:
- 对外:开源模型卷价格、卷benchmark、强调”独立”
- 对内:实际硬件和训练资源还在NVIDIA上跑
DeepSeek这次的做法,等于把双轨合一。它把V4的发布节奏完全绑定到华为芯片产能上。这是过去任何一家中国AI公司都没敢做过的事——风险摆在那:
- 如果Huawei 950PR量产延期,DeepSeek V4正式版就跟着推迟
- 如果Ascend的性能不及预期,DeepSeek要承受”模型跑不动”的口碑代价
- 如果有客户要用V4正式版,他们必须接受”芯片绑定”
但收益也明确:中国AI从此有了不依赖NVIDIA的完整训练-推理-部署闭环。
一面镜子的两边
这和Anthropic刚签下Google 400亿的故事,刚好是一面镜子。
算力主权这件事,全球各家正在用不同的姿势抢锁——美国玩家靠盖云厂房、签长期合约,中国玩家靠绑国产芯片、把发布节奏配合产能曲线,最终都是要把”我下半年能跑多少tokens”这件事写进资产负债表。
CCTV系账号这次主动揭底,时机也挺巧。下半年还没到,市场预期已经被提前定好了——华为芯片量产顺利,DeepSeek V4成为标杆产品;不顺利,整个国产AI叙事都要打个折扣。
赌局已经开了。下半年见结果。
参考来源:DeepSeek V4 Launch Postponed as Company Prioritizes Domestic Chip Integration(Bloomberg);Huawei, DeepSeek strengthen China's AI self-reliance with collaboration on V4 model(South China Morning Post);DeepSeek delays V4 launch to tune for Huawei Ascend chips(Newsbytes)