英伟达融合扩散与自回归发新模型 - News

5月20号，英伟达Nemotron Labs甩了篇论文加权重。

这次发的不是一个”再大一点的模型”，是一个新的解码方式——叫Nemotron-Labs-Diffusion。3B、8B、14B三个规格，base、instruct、vision-language三种变体一次发齐。

关键不在参数量，在它同时支持三种解码模式。

一个模型三种跑法

传统大模型生成文本只有一种方式：自回归（AR）——左到右一个token一个token吐，每次forward只生成一个token。慢，但准。

扩散模型（diffusion）反着来——并行预测一整批token，吞吐量上去了，但准确率历来打不过AR。

Nemotron-Labs-Diffusion做的是把这两种揉到一个模型里，再加第三种：

模式	干什么	速度
Autoregressive (AR)	标准从左到右生成	1× （基线）
Diffusion	一次denoise多个token	2.57× tokens/forward
Self-Speculation	Diffusion先猜，AR来验证	5.99× tokens/forward

第三种是这次的核心创新。

Self-Speculation的做法是：让diffusion部分先并行起草一批候选token，再让AR部分快速校验通过哪些。整个过程不需要额外的小模型当draft model（传统投机解码的做法）、不需要额外的预测头——同一个模型，同一套权重，两种模式互相配合。

8B模型在Self-Speculation模式下，每次forward能吐的token是Qwen3-8B的5.99倍，且精度（63.61% vs Qwen3-8B的62.75%）还反过来涨了一点。

GB200上的实测数字

吞吐量数字摆出来：

GB200单卡concurrency=1：850 tokens/s vs AR模式 253 tokens/s
加上英伟达自家定制的CUDA kernel：跳到 1015 tokens/s
8B Vision-Language变体：根据回答长度，3.63× 到 7.45× tokens/forward

这个数字什么概念？

主流大模型在H100上的推理吞吐量通常在100-300 tokens/s这个区间。Nemotron-Labs-Diffusion 8B在GB200上单并发跑到1015 tokens/s——比一线主流模型快3-4倍。

对什么场景重要？

实时Agent。Agent需要边推理边调工具、再继续推理。每多一次工具调用就多一次推理回合。当吞吐量翻3倍意味着一次Agent任务的延迟从15秒压到5秒——这是Agent能不能从”演示”变成”日常工作”的关键阈值。

训练做法

Nemotron-Labs-Diffusion不是从零训的，是在AR预训之后加了第二阶段。

第一阶段：1万亿token，纯AR目标训练
第二阶段：3000亿token，AR和diffusion混合目标

混合损失函数写出来是：

ℒ(θ) = ℒ_AR(θ) + α · ℒ_diff(θ)，其中 α = 0.3

α取0.3意味着——AR是主目标，diffusion是辅助目标。这一权重选择是Nemotron-Labs-Diffusion跟其他diffusion LM的根本区别。

传统的diffusion语言模型对所有token排列方式一视同仁——意思是它不预设”自然语言是从左到右生成的”。Nemotron-Labs-Diffusion反过来，充分利用了”自然语言天然有左到右先验”这一事实，避免了diffusion语言模型一直被诟病的精度下降问题。

训练用了256张H100。3B/8B/14B三个规格，全用同一套方法。

跟谁抢

直接对位的是Qwen3-8B、Llama 4-8B这一档。

但Nemotron-Labs-Diffusion打的不是”模型更聪明”——是”同样的智能，3-6倍的吞吐量”。英伟达卖芯片的逻辑很直接：你买更多的GB200，加这个模型，能榨出比别家更多的token经济产能。

这跟英伟达过去一年的策略一脉相承：不是单卖芯片，是卖一整套（模型 + 硬件 + CUDA kernel）能让企业算力账单看着更值的方案。

Nemotron-Labs-Diffusion的权重已经放在Hugging Face了，license是NVIDIA Nemotron Open Model License——不是Apache 2.0，但允许商用、允许微调、允许部署。

至于这套方法能不能在32B/70B这种更大规格上复刻？英伟达没说。但5月20号晚上扔出来的这个东西，足够让所有做推理优化的团队明天加班讨论一遍。

参考来源：NVIDIA AI Releases Nemotron-Labs-Diffusion: A Tri-Mode Language Model with 6× Tokens Per Forward Over Qwen3-8B（MarkTechPost）/ Nemotron-Labs-Diffusion: A Tri-Mode Language Model Unifying Autoregressive, Diffusion,CocoLoop、 and Self-Speculation Decoding（NVIDIA Research）/ NVIDIA pushes past autoregressive text generation with Nemotron-Labs-Diffusion（Startup Fortune）