Google把TPU劈成两块:一块管训练,一块管推理,都在蚕食Nvidia的地盘

4月22日的 Google Cloud Next,Sundar Pichai 发布了第八代 TPU——不是一款芯片,是两款,TPU 8t 和 TPU 8i。

把一代产品劈成两块,这个决策本身就值得说说。

TPU 8t:给训练用的

TPU 8t 里的「t」是 training,训练专用。核心参数:

指标 TPU 8t
单 pod 最大联接 9,600 块芯片
共享高带宽内存 2PB(单 superpod)
性能/价格比上代 +2.7x
原生浮点精度 支持 bf4(4-bit 浮点)
性能/功耗比上代 +2x

内置 SparseCore 加速器,专门处理 embedding 这类内存访问不规则的场景。网络拓扑用 3D torus。

Google 的目标是把 frontier 模型的训练周期从「按月算」压到「按周算」。

TPU 8i:给推理用的

TPU 8i 的「i」是 inference,推理专用。

指标 TPU 8i
单 pod 最大联接 1,152 块芯片
SRAM 是上代的 3 倍
all-to-all 通信跳数 减少 50%
性能/价格比上代 +80%(低延迟场景)

用的是自研 Boardfly ICI 网络拓扑,内置 Collectives Acceleration Engine,专门加速自回归解码——这是大模型推理的核心瓶颈之一。

为什么要劈成两块?

上代 Ironwood 是一款芯片兼顾训练和推理。

现在 Google 的判断是:在 agent 时代,推理的形态和训练完全不同

训练是:大批量、一次性、吞吐量优先。
推理(特别是 agent)是:持续运行、低延迟、同时跑百万个 agent 并发。

一套架构通吃这两种场景,硬件效率必然折中。索性拆开,各自优化到极致。

这是 Google 对未来 AI 计算形态的一次押注,不只是「更快的芯片」发布。

Nvidia 紧张吗?

Google 没有对着 Nvidia 喊话——而且同天宣布会在 2026 年晚些时候为 Cloud 客户提供 Nvidia 的 Vera Rubin 芯片。

这很务实。企业工作负载高度依赖 CUDA 生态,迁移成本高,不是一朝一夕的事。Google 自研芯片和 Nvidia 在同一个云里共存,并不是「二选一」。

但方向是清楚的:每代 TPU 把性价比推高一个量级,客户选纯 Google 路线的理由就多一分

顺便一个背景数据:Google 内部有 75% 的新代码现在由 AI 生成(去年秋天是 50%)。这些代码最终跑在什么上?他们自己造的芯片。这个循环在慢慢加速。

参考来源:Google Cloud launches two new AI chips to compete with Nvidia(TechCrunch);Two new TPUs to power the next wave of AI training and inference at Google(SiliconANGLE);Our eighth generation TPUs: two chips for the agentic era(Google Blog);Sundar Pichai shares news from Google Cloud Next 2026(Google Blog)