Google把TPU劈成两块：一块管训练，一块管推理，都在蚕食Nvidia的地盘 - News

4月22日的 Google Cloud Next，Sundar Pichai 发布了第八代 TPU——不是一款芯片，是两款，TPU 8t 和 TPU 8i。

把一代产品劈成两块，这个决策本身就值得说说。

TPU 8t：给训练用的

TPU 8t 里的「t」是 training，训练专用。核心参数：

指标	TPU 8t
单 pod 最大联接	9,600 块芯片
共享高带宽内存	2PB（单 superpod）
性能/价格比上代	+2.7x
原生浮点精度	支持 bf4（4-bit 浮点）
性能/功耗比上代	+2x

内置 SparseCore 加速器，专门处理 embedding 这类内存访问不规则的场景。网络拓扑用 3D torus。

Google 的目标是把 frontier 模型的训练周期从「按月算」压到「按周算」。

TPU 8i：给推理用的

TPU 8i 的「i」是 inference，推理专用。

指标	TPU 8i
单 pod 最大联接	1,152 块芯片
SRAM 是上代的	3 倍
all-to-all 通信跳数	减少 50%
性能/价格比上代	+80%（低延迟场景）

用的是自研 Boardfly ICI 网络拓扑，内置 Collectives Acceleration Engine，专门加速自回归解码——这是大模型推理的核心瓶颈之一。

为什么要劈成两块？

上代 Ironwood 是一款芯片兼顾训练和推理。

现在 Google 的判断是：在 agent 时代，推理的形态和训练完全不同。

训练是：大批量、一次性、吞吐量优先。
推理（特别是 agent）是：持续运行、低延迟、同时跑百万个 agent 并发。

一套架构通吃这两种场景，硬件效率必然折中。索性拆开，各自优化到极致。

这是 Google 对未来 AI 计算形态的一次押注，不只是「更快的芯片」发布。

Nvidia 紧张吗？

Google 没有对着 Nvidia 喊话——而且同天宣布会在 2026 年晚些时候为 Cloud 客户提供 Nvidia 的 Vera Rubin 芯片。

这很务实。企业工作负载高度依赖 CUDA 生态，迁移成本高，不是一朝一夕的事。Google 自研芯片和 Nvidia 在同一个云里共存，并不是「二选一」。

但方向是清楚的：每代 TPU 把性价比推高一个量级，客户选纯 Google 路线的理由就多一分。

顺便一个背景数据：Google 内部有 75% 的新代码现在由 AI 生成（去年秋天是 50%）。这些代码最终跑在什么上？他们自己造的芯片。这个循环在慢慢加速。

参考来源：Google Cloud launches two new AI chips to compete with Nvidia（TechCrunch）；Two new TPUs to power the next wave of AI training and inference at Google（SiliconANGLE）；Our eighth generation TPUs: two chips for the agentic era（Google Blog）；Sundar Pichai shares news from Google Cloud Next 2026（Google Blog）