量化和蒸馏:把大模型塞进小设备的两大核心技术
大模型能力越来越强,但部署成本也越来越高。量化和蒸馏是目前最主流的两种”把模型变小变快”的技术路线。 量化:降精度核心思路:把模型权重从高精度格式(FP32/FP16)压缩到低精度格式(INT8/INT4甚至更低)。 训
共 4 篇文章
大模型能力越来越强,但部署成本也越来越高。量化和蒸馏是目前最主流的两种”把模型变小变快”的技术路线。 量化:降精度核心思路:把模型权重从高精度格式(FP32/FP16)压缩到低精度格式(INT8/INT4甚至更低)。 训
两年前主流模型的上下文窗口还在4K到8K这个量级,现在百万级token已经是旗舰模型的标配了。 当前格局 Gemini 2.5 Pro:100万token(可扩展到200万) Claude Opus 4.6:100万token(beta)
MiniMax去年发布的01系列模型里有个技术亮点叫Lightning Attention,核心目的很直接——降低注意力机制的计算复杂度。 传统注意力机制的问题标准的Transformer注意力是O(n²)复杂度——输入长度翻倍,计算量翻四
DeepSeek在成本控制上的水平已经成了行业传说级别的存在: V3训练成本:约$550万 R1 GPU使用费:约$29.4万 同期美国公司训类似规模模型的预算是**$1亿到$10亿**。差了至少一个数量级。 省钱秘诀1. FP8混合精度训