Google把AI推理内存压缩了6倍:TurboQuant不用重新训练,H100速度最高翻8倍

3月25日,Google Research发了一篇论文,然后一大堆人在推特上叫它”Pied Piper”——就是《硅谷》里那个靠压缩算法险些改变互联网历史的虚构公司。

这个类比有点夸张,但也没那么离谱。

TurboQuant的核心主张:把大模型推理时的KV Cache内存占用压缩至少6倍,不用重新训练,不损失精度。 在H100 GPU上,4-bit TurboQuant版本跑速最高比标准32-bit快8倍。

这个数字放到实际成本里意味着什么,算起来很简单。

KV Cache是什么,为什么要压它

大模型在推理时(就是你在问它问题、它在回答你的那个阶段),需要维护一块运行内存叫KV Cache(键值缓存)。它储存了注意力机制里的中间计算结果,让模型不用每次都从头重算。

问题在于,上下文窗口越长,KV Cache越大。现在很多模型动辄百万token的上下文,KV Cache能吃掉一块A100/H100显卡里的大半显存。这直接限制了能同时服务多少用户、能跑多长的对话。

这也是AI推理成本居高不下的重要原因之一。

TurboQuant的目标就是把这块内存压下来。

两步走:PolarQuant + QJL

TurboQuant由两个算法组合:PolarQuantQJL(Quantized Johnson-Lindenstrauss)

第一步 - PolarQuant:把向量从直角坐标系转成极坐标系。

这个转换有个关键好处:原来在直角坐标里,每个方向的数值范围不一样,量化(压缩)时需要记录一个归一化系数,增加了内存开销。换成极坐标之后,数据被分解成”大小”和”方向”两个部分,方向映射到一个规则的圆形网格上,不再需要那个额外的归一化步骤,精度损失也更可控。

第二步 - QJL:用Johnson-Lindenstrauss变换处理剩余误差。

这个方法把每个向量数值压缩到只有1个符号位(+1或-1),内存开销接近零。配合一个专门校准过的估算器,保证注意力分数计算时的准确性不出问题。

两步叠加,最终把KV Cache每个值从16位压到3位,压缩比6倍以上。

关键性能数字

测试场景 结果
KV Cache内存压缩比 至少6倍(LongBench测试无精度损失)
量化位宽 从16-bit压到3-bit
H100速度提升 4-bit TurboQuant版本最高8倍加速
是否需要重新训练 不需要

向量搜索方向的测试里,TurboQuant在1@k召回率上持续优于PQ和RabbitQ基线,同时构建索引的时间几乎忽略不计。

有多重要,有什么限制

Cloudflare CEO Matthew Prince把TurboQuant称为”Google的DeepSeek时刻”。这话说得有点重,不过角度是对的:DeepSeek靠工程优化把训练成本砍了一大截,TurboQuant靠压缩算法把推理成本往下打。逻辑是一样的。

但这里有个重要的限制要说清楚:TurboQuant只管推理内存,不管训练内存。 训练大模型需要的算力和显存,它完全没碰。所以它不会改变”谁能训练出最强模型”这个格局,只会影响”模型跑起来要花多少钱”。

另一个现实是,TurboQuant目前还是实验室成果,将在ICLR 2026(4月下旬)正式发表,尚未大规模部署到真实产品中。Google有没有把它用进Gemini系列的推理服务里,目前没有公开消息。

从论文到产品之间还有一段距离——工程适配、稳定性验证、回归测试都是耗时间的事。不过考虑到vLLM等主流推理框架已经有社区在做TurboQuant的集成(GitHub上已经出现了Triton内核实现),进入实际生产环境的时间线应该不会太长。

如果最终落地,6倍内存压缩叠加8倍速度提升的效果,对AI推理的成本结构是真正的影响——不是那种”跑分好看、实际没用”的那种。

研究负责人是Amir Zandieh(研究科学家)和Vahab Mirrokni(Google Fellow、VP)。

参考来源:TurboQuant: Redefining AI efficiency with extreme compression(Google Research);Google unveils TurboQuant, a new AI memory compression algorithm(TechCrunch);Google's TurboQuant compresses AI memory by 6x, rattles chip stocks(The Next Web)