DeepSeek V4跑在华为芯片上:这不只是新模型发布,是中国AI的一次脱钩演练

DeepSeek即将发布V4,但这次最值得关注的不是模型参数有多大,而是它跑在什么芯片上。

根据《The Information》报道,DeepSeek V4将运行在华为的 Ascend 950PR 芯片上。这是第一个专门为中国本土芯片架构构建的前沿AI模型。

先看模型本身

V4的规格很猛:

参数 数值
总参数量 约1万亿(MoE架构)
推理时激活参数 约370亿
上下文窗口 100万token
SWE-bench得分 81%

用MoE架构的逻辑跟V3一样:1万亿参数存在那,每次推理只激活370亿。实际运行成本更接近370亿的密集模型,但能力可以摸到万亿参数的边。训练完成后的API定价是0.30美元/百万token,比GPT系列便宜一个数量级。

多模态也做进来了:V4支持文字、图片和视频生成原生处理。

华为芯片这件事为什么重要?

DeepSeek之前的模型,包括V3和R1,都是用英伟达A100/H100训练的(或者至少用了CUDA生态)。V4是第一次从头到尾基于华为CANN架构来做。

Ascend 950PR的硬件规格:

  • 算力:FP8 1 PFLOPS / FP4 2 PFLOPS
  • 互联带宽:2 TB/s
  • 制造工艺:中芯国际N+3工艺(性能接近5nm级别)
  • 搭载在华为Atlas 350加速卡上

DeepSeek为了让V4跑通这套芯片,跟华为和寒武纪联合改写了大量底层代码,目标是完全绕开NVIDIA的CUDA生态。

TrendForce的分析认为,如果这次顺利,DeepSeek的开发管线在一到两年内可以实现对CUDA的实质性独立。

阿里、字节、腾讯都在抢华为芯片

市场的反应很直接:阿里巴巴、字节跳动、腾讯已经向华为下了合计 数十万张 Ascend芯片订单。需求猛增,华为的芯片价格已经涨了约 20%

华为计划2026年生产约60万张Ascend 910C,比2025年翻倍,总Ascend产能达到160万张。

换个角度想:如果DeepSeek V4在华为芯片上跑起来效果不错,国内AI厂商就有了一个现实可行的替代路径——不再完全依赖英伟达。这对整个产业链的意义比V4本身还大。

但Huawei芯片到底行不行?

说实话,这还是个悬念。

Ascend 950PR的理论算力数字看起来不错,但实际分布式训练和推理的效率,跟英伟达H100生态比起来还没有大规模验证数据。V4-Lite目前在API节点上有内测,开发者反映推理速度提升了30%,上下文召回也有明显改善——但这是在专门优化过的环境里。

真正的考验在:V4正式版上线后,性能表现会不会像宣传的那样稳定?

如果跑通了,这是中国AI硬件独立路线的一个真实证明。如果跑不好,只能说明独立的方向是对的,但时间还不够。

预计V4正式版4月中旬发布,等着看结果。

参考来源:DeepSeek's V4 model will run on Huawei chips, The Information reports(WHBL);Decoding DeepSeek V4: How Huawei's Ascend 950PR Is Powering China's Push to Break CUDA Dependence(TrendForce);DeepSeek V4 points to growing use of Huawei chips in AI models(TechWire Asia);DeepSeek V4 And Tencent's New Hunyuan Model To Launch In April(Dataconomy)