黄仁勋要在开源模型市场上插一面旗
大家以为NVIDIA只管卖GPU的时候,英伟达悄悄发布了Nemotron 3全系列——不只是模型权重,连3万亿token的预训练数据集、强化学习流程和评估工具全部开源了。
这个动作的信号很清晰:NVIDIA不想只做卖铲子的,它要在开源AI生态里占一个位置。
三个尺寸,全部混合专家架构
Nemotron 3系列采用的是混合潜空间MoE(Hybrid Latent MoE)架构,共三个版本:
| 型号 | 总参数 | 每次激活参数 | 状态 |
|---|---|---|---|
| Nano | 300亿 | 约30亿 | 已发布 |
| Super | 约1000亿 | 约100亿 | 2026上半年 |
| Ultra | 约5000亿 | 约500亿 | 2026上半年 |
MoE的核心优势就是:参数规模大,但每次推理只激活一小部分,所以实际计算成本可以控制得住。DeepSeek V3、Llama 4都在用同样的思路,现在NVIDIA也跟上了。
Nano的跑分数据挺有意思
已发布的Nano版本,官方给出的数据:
- 推理速度是前代产品的4倍
- 推理token生成量减少60%(能用更少的中间步骤得到结论)
- 上下文窗口1M token
第三方评测机构Artificial Analysis的评价是:”同尺寸模型里开放程度最高、效率最好的,精度也领先”。
这个”高效推理”方向和DeepSeek V3.2的稀疏注意力思路有点像——大方向都是在不牺牲效果的前提下把计算量打下来。
全开放的工具链
NVIDIA同步开源了一套配套工具:
- NeMo Gym:Agent强化学习训练框架
- NeMo RL:强化学习流程库
- NeMo Evaluator:评估工具
模型权重、训练数据、工具链全部发在Hugging Face和GitHub上,协议完全开放,任何人可以下载、微调、部署。
NVIDIA为什么要做这件事
有几个可能的逻辑:
软件绑定硬件。你用NVIDIA的开源模型工具链,大概率配NVIDIA的GPU跑。这和当年CUDA的逻辑一样,用生态锁住计算基础设施。
对冲开源竞争压力。DeepSeek、Llama 4、Qwen这些开源模型越来越强,NVIDIA如果只做硬件层,在AI生态的话语权会被稀释。做开源模型等于直接入局。
企业采购捆绑。很多大企业买NVIDIA GPU加服务套餐,内置可信的开源模型是加分项,也是销售材料的一部分。
当然,开源这件事对NVIDIA来说也是成本。但从英伟达目前的财力来看,这不是问题。
值得等的是Super和Ultra
目前发布的Nano规模相对保守。真正让人期待的是2026上半年的Super(1000亿参数)和Ultra(5000亿参数)——如果Nemotron 3 Ultra打出来的benchmark够好,这件事就不只是”NVIDIA也做模型了”这么简单,而是一个在开源模型排行榜上有真实竞争力的选手。
参考来源:NVIDIA Debuts Nemotron 3 Family of Open Models(NVIDIA Newsroom)