NVIDIA 和 AMD 平时在显卡市场上是见面就掐的,这次居然掏钱投了同一家公司。
5 月 27 日,一家叫 Tensormesh 的公司宣布拿到 2000 万美元融资。出资方里同时出现了 AMD Ventures、NVIDIA 的投资臂 NVentures,还有云厂商 CoreWeave。三家平时利益不太对付的,这回站到了一张桌子上。
加上这笔,Tensormesh 累计融了 2450 万美元。钱不算多,但投资名单本身就是个信号。
它要解决的,是一笔每天都在烧的冤枉钱
Tensormesh 同时宣布旗下的 Tensormesh Inference 正式商用(GA)。
这玩意儿干的事,说白了就一件:别让 GPU 一遍遍重算已经算过的东西。
跑大模型推理的时候,模型每处理一段 prompt,都会生成一堆中间数据。下一个请求来了,如果内容有重叠,传统做法是从头再算一遍。GPU 时间就这么白白烧掉了。
Tensormesh 的办法是把这些中间结果存下来、复用——业内管这叫 KV 缓存(KV cache)。已经算过的直接取,没算过的才算。官方给的数字是,延迟和 GPU 开销最高能砍到原来的十分之一。有客户实测,缓存命中率超过 70%——也就是说,十个请求里有七个根本不用重新算。
创始人 Junchen Jiang 把这事拔到了一个更高的位置:
“Behind the term KV cache is a whole concept of AI interpretation of the question it is asked. It’s a whole new class of data.”
讲人话就是——KV 缓存背后,是模型对问题的整套理解过程,这是一类全新的数据,值得专门做一层基础设施去管它。
为什么是现在,为什么三家巨头一起下注
这事放两年前可能没人当回事。Agent 火起来之后就不一样了。
一个 Agent 干活,动辄几十上百轮来回,每一轮都带着前面的上下文。重复计算的量是指数级往上涨的。推理成本——而不是训练成本——开始变成压在企业头上的那座山。
KV 缓存正好卡在这个点上。AMD、NVIDIA、CoreWeave 同时进来,说明在”KV 缓存会成为推理基础设施里单独一层”这件事上,芯片厂和云厂难得地达成了共识。对它们来说,谁的硬件上能把推理跑得更省,谁就更好卖。Tensormesh 这笔钱,有相当一部分就是要拿去深化跟这三家的硬件级集成。
Tensormesh 也不是空手起家。它背后是开源项目 LMCache,GitHub 上 8000 多颗星,已经接进了 vLLM、SGLang、TensorRT、NVIDIA Dynamo、AWS SageMaker、Oracle OCI 这一长串生态。这次商用版本,本质是把这个跑通了的开源底座做成了企业能直接买的服务。
这条线值得盯着
过去一年,AI 圈的钱大多砸在两个地方:更大的模型,更多的卡。Tensormesh 这类公司押的是第三个方向——同样的卡和模型,怎么让它别干重复活。
随着 Agent 把推理量越堆越高,这条”省钱”的赛道只会越来越挤。三家巨头这次罕见地同框,与其说是看好这一家公司,不如说是承认了一件事:推理成本这道坎,绕不过去。
接下来谁能把这层基础设施做成标准,谁就握住了 Agent 时代的一个收费口。
参考来源:Tensormesh Raises $20M from Investors Including AMD Ventures, CoreWeave, NVentures(Business Wire)、Tensormesh taps Nvidia, AMD and CoreWeave for funding to fix AI model memory problems(SiliconANGLE)