Google把AI推理内存压缩了6倍：TurboQuant不用重新训练，H100速度最高翻8倍 - News

3月25日，Google Research发了一篇论文，然后一大堆人在推特上叫它”Pied Piper”——就是《硅谷》里那个靠压缩算法险些改变互联网历史的虚构公司。

这个类比有点夸张，但也没那么离谱。

TurboQuant的核心主张：把大模型推理时的KV Cache内存占用压缩至少6倍，不用重新训练，不损失精度。 在H100 GPU上，4-bit TurboQuant版本跑速最高比标准32-bit快8倍。

这个数字放到实际成本里意味着什么，算起来很简单。

KV Cache是什么，为什么要压它

大模型在推理时（就是你在问它问题、它在回答你的那个阶段），需要维护一块运行内存叫KV Cache（键值缓存）。它储存了注意力机制里的中间计算结果，让模型不用每次都从头重算。

问题在于，上下文窗口越长，KV Cache越大。现在很多模型动辄百万token的上下文，KV Cache能吃掉一块A100/H100显卡里的大半显存。这直接限制了能同时服务多少用户、能跑多长的对话。

这也是AI推理成本居高不下的重要原因之一。

TurboQuant的目标就是把这块内存压下来。

两步走：PolarQuant + QJL

TurboQuant由两个算法组合：PolarQuant 和 QJL（Quantized Johnson-Lindenstrauss）。

第一步 - PolarQuant：把向量从直角坐标系转成极坐标系。

这个转换有个关键好处：原来在直角坐标里，每个方向的数值范围不一样，量化（压缩）时需要记录一个归一化系数，增加了内存开销。换成极坐标之后，数据被分解成”大小”和”方向”两个部分，方向映射到一个规则的圆形网格上，不再需要那个额外的归一化步骤，精度损失也更可控。

第二步 - QJL：用Johnson-Lindenstrauss变换处理剩余误差。

这个方法把每个向量数值压缩到只有1个符号位（+1或-1），内存开销接近零。配合一个专门校准过的估算器，保证注意力分数计算时的准确性不出问题。

两步叠加，最终把KV Cache每个值从16位压到3位，压缩比6倍以上。

关键性能数字

测试场景	结果
KV Cache内存压缩比	至少6倍（LongBench测试无精度损失）
量化位宽	从16-bit压到3-bit
H100速度提升	4-bit TurboQuant版本最高8倍加速
是否需要重新训练	不需要

向量搜索方向的测试里，TurboQuant在1@k召回率上持续优于PQ和RabbitQ基线，同时构建索引的时间几乎忽略不计。

有多重要，有什么限制

Cloudflare CEO Matthew Prince把TurboQuant称为”Google的DeepSeek时刻”。这话说得有点重，不过角度是对的：DeepSeek靠工程优化把训练成本砍了一大截，TurboQuant靠压缩算法把推理成本往下打。逻辑是一样的。

但这里有个重要的限制要说清楚：TurboQuant只管推理内存，不管训练内存。 训练大模型需要的算力和显存，它完全没碰。所以它不会改变”谁能训练出最强模型”这个格局，只会影响”模型跑起来要花多少钱”。

另一个现实是，TurboQuant目前还是实验室成果，将在ICLR 2026（4月下旬）正式发表，尚未大规模部署到真实产品中。Google有没有把它用进Gemini系列的推理服务里，目前没有公开消息。

从论文到产品之间还有一段距离——工程适配、稳定性验证、回归测试都是耗时间的事。不过考虑到vLLM等主流推理框架已经有社区在做TurboQuant的集成（GitHub上已经出现了Triton内核实现），进入实际生产环境的时间线应该不会太长。

如果最终落地，6倍内存压缩叠加8倍速度提升的效果，对AI推理的成本结构是真正的影响——不是那种”跑分好看、实际没用”的那种。

研究负责人是Amir Zandieh（研究科学家）和Vahab Mirrokni（Google Fellow、VP）。

参考来源：TurboQuant: Redefining AI efficiency with extreme compression（Google Research）；Google unveils TurboQuant, a new AI memory compression algorithm（TechCrunch）；Google's TurboQuant compresses AI memory by 6x, rattles chip stocks（The Next Web）