4月22日的 Google Cloud Next,Sundar Pichai 发布了第八代 TPU——不是一款芯片,是两款,TPU 8t 和 TPU 8i。
把一代产品劈成两块,这个决策本身就值得说说。
TPU 8t:给训练用的
TPU 8t 里的「t」是 training,训练专用。核心参数:
| 指标 | TPU 8t |
|---|---|
| 单 pod 最大联接 | 9,600 块芯片 |
| 共享高带宽内存 | 2PB(单 superpod) |
| 性能/价格比上代 | +2.7x |
| 原生浮点精度 | 支持 bf4(4-bit 浮点) |
| 性能/功耗比上代 | +2x |
内置 SparseCore 加速器,专门处理 embedding 这类内存访问不规则的场景。网络拓扑用 3D torus。
Google 的目标是把 frontier 模型的训练周期从「按月算」压到「按周算」。
TPU 8i:给推理用的
TPU 8i 的「i」是 inference,推理专用。
| 指标 | TPU 8i |
|---|---|
| 单 pod 最大联接 | 1,152 块芯片 |
| SRAM 是上代的 | 3 倍 |
| all-to-all 通信跳数 | 减少 50% |
| 性能/价格比上代 | +80%(低延迟场景) |
用的是自研 Boardfly ICI 网络拓扑,内置 Collectives Acceleration Engine,专门加速自回归解码——这是大模型推理的核心瓶颈之一。
为什么要劈成两块?
上代 Ironwood 是一款芯片兼顾训练和推理。
现在 Google 的判断是:在 agent 时代,推理的形态和训练完全不同。
训练是:大批量、一次性、吞吐量优先。
推理(特别是 agent)是:持续运行、低延迟、同时跑百万个 agent 并发。
一套架构通吃这两种场景,硬件效率必然折中。索性拆开,各自优化到极致。
这是 Google 对未来 AI 计算形态的一次押注,不只是「更快的芯片」发布。
Nvidia 紧张吗?
Google 没有对着 Nvidia 喊话——而且同天宣布会在 2026 年晚些时候为 Cloud 客户提供 Nvidia 的 Vera Rubin 芯片。
这很务实。企业工作负载高度依赖 CUDA 生态,迁移成本高,不是一朝一夕的事。Google 自研芯片和 Nvidia 在同一个云里共存,并不是「二选一」。
但方向是清楚的:每代 TPU 把性价比推高一个量级,客户选纯 Google 路线的理由就多一分。
顺便一个背景数据:Google 内部有 75% 的新代码现在由 AI 生成(去年秋天是 50%)。这些代码最终跑在什么上?他们自己造的芯片。这个循环在慢慢加速。
参考来源:Google Cloud launches two new AI chips to compete with Nvidia(TechCrunch);Two new TPUs to power the next wave of AI training and inference at Google(SiliconANGLE);Our eighth generation TPUs: two chips for the agentic era(Google Blog);Sundar Pichai shares news from Google Cloud Next 2026(Google Blog)