大模型能力越来越强,但部署成本也越来越高。量化和蒸馏是目前最主流的两种”把模型变小变快”的技术路线。
量化:降精度
核心思路:把模型权重从高精度格式(FP32/FP16)压缩到低精度格式(INT8/INT4甚至更低)。
训练后量化(PTQ)
最简单直接——模型训完之后直接降精度。通常能把模型大小压缩75-80%,精度损失在可接受范围内。适合快速部署。
量化感知训练(QAT)
在训练过程中就让模型适应低精度环境。效果比PTQ好,但需要重新训练。
量化感知蒸馏(QAD)
NVIDIA最近搞的新方法——学生模型同时学习两件事:适应量化误差 + 对齐全精度教师模型。他们的NVFP4-QAD研究证明了FP4精度下也能恢复精度。
蒸馏:知识转移
让小模型(学生)模仿大模型(教师)的行为。学生模型通常能达到教师模型**90-95%**的性能,但体积小得多。
DeepSeek R1的蒸馏版就是典型案例——32B的蒸馏模型打平了o1-mini。
剪枝:直接砍参数
识别并移除不重要的参数(权重、神经元或整个层)。通常可以干掉**30-50%**的参数而性能几乎不变。
推测解码:并行验证
用一个小的”草稿模型”快速生成多个候选token,再让大模型并行验证。原理类似于”先粗画再精修”,大幅降低了延迟。
趋势
NVIDIA的判断是2026年将是**”前沿模型 vs 高效模型”两条路线分化的一年**。混合使用多种优化技术正在成为主流——不是选一种,而是量化+蒸馏+剪枝组合起来用。
硬件方面,ASIC加速器、chiplet设计和模拟推理芯片都在成熟,GPU不再是唯一的推理选项。
参考来源:NVIDIA技术博客