量化和蒸馏：把大模型塞进小设备的两大核心技术

大模型能力越来越强，但部署成本也越来越高。量化和蒸馏是目前最主流的两种”把模型变小变快”的技术路线。

量化：降精度

核心思路：把模型权重从高精度格式（FP32/FP16）压缩到低精度格式（INT8/INT4甚至更低）。

训练后量化（PTQ）
最简单直接——模型训完之后直接降精度。通常能把模型大小压缩75-80%，精度损失在可接受范围内。适合快速部署。

量化感知训练（QAT）
在训练过程中就让模型适应低精度环境。效果比PTQ好，但需要重新训练。

量化感知蒸馏（QAD）
NVIDIA最近搞的新方法——学生模型同时学习两件事：适应量化误差 + 对齐全精度教师模型。他们的NVFP4-QAD研究证明了FP4精度下也能恢复精度。

让小模型（学生）模仿大模型（教师）的行为。学生模型通常能达到教师模型**90-95%**的性能，但体积小得多。

DeepSeek R1的蒸馏版就是典型案例——32B的蒸馏模型打平了o1-mini。

识别并移除不重要的参数（权重、神经元或整个层）。通常可以干掉**30-50%**的参数而性能几乎不变。

用一个小的”草稿模型”快速生成多个候选token，再让大模型并行验证。原理类似于”先粗画再精修”，大幅降低了延迟。

NVIDIA的判断是2026年将是**”前沿模型 vs 高效模型”两条路线分化的一年**。混合使用多种优化技术正在成为主流——不是选一种，而是量化+蒸馏+剪枝组合起来用。

硬件方面，ASIC加速器、chiplet设计和模拟推理芯片都在成熟，GPU不再是唯一的推理选项。

参考来源：NVIDIA技术博客