5月20号,英伟达Nemotron Labs甩了篇论文加权重。
这次发的不是一个”再大一点的模型”,是一个新的解码方式——叫Nemotron-Labs-Diffusion。3B、8B、14B三个规格,base、instruct、vision-language三种变体一次发齐。
关键不在参数量,在它同时支持三种解码模式。
一个模型三种跑法
传统大模型生成文本只有一种方式:自回归(AR)——左到右一个token一个token吐,每次forward只生成一个token。慢,但准。
扩散模型(diffusion)反着来——并行预测一整批token,吞吐量上去了,但准确率历来打不过AR。
Nemotron-Labs-Diffusion做的是把这两种揉到一个模型里,再加第三种:
| 模式 | 干什么 | 速度 |
|---|---|---|
| Autoregressive (AR) | 标准从左到右生成 | 1× (基线) |
| Diffusion | 一次denoise多个token | 2.57× tokens/forward |
| Self-Speculation | Diffusion先猜,AR来验证 | 5.99× tokens/forward |
第三种是这次的核心创新。
Self-Speculation的做法是:让diffusion部分先并行起草一批候选token,再让AR部分快速校验通过哪些。整个过程不需要额外的小模型当draft model(传统投机解码的做法)、不需要额外的预测头——同一个模型,同一套权重,两种模式互相配合。
8B模型在Self-Speculation模式下,每次forward能吐的token是Qwen3-8B的5.99倍,且精度(63.61% vs Qwen3-8B的62.75%)还反过来涨了一点。
GB200上的实测数字
吞吐量数字摆出来:
- GB200单卡concurrency=1:850 tokens/s vs AR模式 253 tokens/s
- 加上英伟达自家定制的CUDA kernel:跳到 1015 tokens/s
- 8B Vision-Language变体:根据回答长度,3.63× 到 7.45× tokens/forward
这个数字什么概念?
主流大模型在H100上的推理吞吐量通常在100-300 tokens/s这个区间。Nemotron-Labs-Diffusion 8B在GB200上单并发跑到1015 tokens/s——比一线主流模型快3-4倍。
对什么场景重要?
实时Agent。Agent需要边推理边调工具、再继续推理。每多一次工具调用就多一次推理回合。当吞吐量翻3倍意味着一次Agent任务的延迟从15秒压到5秒——这是Agent能不能从”演示”变成”日常工作”的关键阈值。
训练做法
Nemotron-Labs-Diffusion不是从零训的,是在AR预训之后加了第二阶段。
- 第一阶段:1万亿token,纯AR目标训练
- 第二阶段:3000亿token,AR和diffusion混合目标
混合损失函数写出来是:
ℒ(θ) = ℒ_AR(θ) + α · ℒ_diff(θ),其中 α = 0.3
α取0.3意味着——AR是主目标,diffusion是辅助目标。这一权重选择是Nemotron-Labs-Diffusion跟其他diffusion LM的根本区别。
传统的diffusion语言模型对所有token排列方式一视同仁——意思是它不预设”自然语言是从左到右生成的”。Nemotron-Labs-Diffusion反过来,充分利用了”自然语言天然有左到右先验”这一事实,避免了diffusion语言模型一直被诟病的精度下降问题。
训练用了256张H100。3B/8B/14B三个规格,全用同一套方法。
跟谁抢
直接对位的是Qwen3-8B、Llama 4-8B这一档。
但Nemotron-Labs-Diffusion打的不是”模型更聪明”——是”同样的智能,3-6倍的吞吐量“。英伟达卖芯片的逻辑很直接:你买更多的GB200,加这个模型,能榨出比别家更多的token经济产能。
这跟英伟达过去一年的策略一脉相承:不是单卖芯片,是卖一整套(模型 + 硬件 + CUDA kernel)能让企业算力账单看着更值的方案。
Nemotron-Labs-Diffusion的权重已经放在Hugging Face了,license是NVIDIA Nemotron Open Model License——不是Apache 2.0,但允许商用、允许微调、允许部署。
至于这套方法能不能在32B/70B这种更大规格上复刻?英伟达没说。但5月20号晚上扔出来的这个东西,足够让所有做推理优化的团队明天加班讨论一遍。
参考来源:NVIDIA AI Releases Nemotron-Labs-Diffusion: A Tri-Mode Language Model with 6× Tokens Per Forward Over Qwen3-8B(MarkTechPost)/ Nemotron-Labs-Diffusion: A Tri-Mode Language Model Unifying Autoregressive, Diffusion, and Self-Speculation Decoding(NVIDIA Research)/ NVIDIA pushes past autoregressive text generation with Nemotron-Labs-Diffusion(Startup Fortune)