AMD今年要出MI400系列AI加速器,旗舰版MI455X搭432GB HBM4内存、19.6TB/s内存带宽,FP4精度下算力跑到40 PFLOPS。
参数单拎出来看,确实够凶。
但问题是:AMD已经把”硬件参数比NVIDIA好看”这个故事讲了几年了。
MI400的数字
先把参数摆出来:
| 指标 | AMD MI400(MI455X) | AMD MI350 | NVIDIA Vera Rubin(2026 H2) |
|---|---|---|---|
| 内存 | 432GB HBM4 | 288GB HBM3E | 288GB HBM4 |
| 内存带宽 | 19.6 TB/s | 8 TB/s | 13 TB/s |
| FP4算力 | 40 PFLOPS | - | - |
| FP8算力 | 20 PFLOPS | 10 PFLOPS | - |
| 上市时间 | 2026年 | 已上市 | 2026年下半年 |
内存容量比MI350多50%,带宽直接翻倍。和即将登场的NVIDIA Vera Rubin相比,AMD宣称自己内存容量领先1.5倍、带宽领先1.5倍。
如果这个比较数据是真的,AMD这次在硬件规格上压住了NVIDIA。
架构:CDNA 5 + Helios机架方案
MI400系列基于CDNA 5架构,配套的机架级方案叫Helios。互联走的是UALoE(Ultra Accelerator Link over Ethernet)——AMD在主推开放标准,试图建立一个不依赖NVIDIA NVLink的集群互联方案。
每个GPU的scale-out带宽是300GB/s,基于UAL和UEC(Ultra Ethernet Consortium)标准。
产品线分两个方向:
- MI455X:训练+推理,旗舰版本
- MI430X:HPC场景变体
分析师算了一笔账
S&P Global市场情报的分析师估算,AMD 2026年可以出货大约258,000片MI400系列芯片,平均售价约30,926美元:
258,000 × $30,926 ≈ 72亿美元
这大概占AMD数据中心业务收入的25%。
不是小数字,但NVIDIA的数据中心业务2025年已经超过了1000亿美元。市场不是等份分的,是先到先得、生态锁定的。
CUDA:那堵AMD始终绕不开的墙
为什么NVIDIA能保持市场主导,即使AMD的硬件参数有时候更好看?
答案是CUDA。
CUDA不只是一个编程框架,它是:
- 十几年积累的教程、Stack Overflow答案、开源项目
- PyTorch、TensorFlow、JAX默认构建在CUDA之上
- 几乎所有AI研究团队的工具链都是基于CUDA搭建的
- NVIDIA在软件生态上的工程投入,是AMD ROCm的量级之上
切换到AMD的代价不只是换硬件,是重写代码、重跑基准、重新验证稳定性。对一个正在训练百亿参数模型的团队来说,这个切换成本几乎不可接受。
ROCm(AMD的GPU计算平台)这两年进步很大,对PyTorch的支持已经相当完善,但在推理优化、算子库、调试工具这些细节上,离CUDA的成熟度还有不小的差距。
芯片是硬件的战场,但AI训练的生意是在软件生态里决定的。
AMD赢了什么,没赢什么
AMD在AI芯片这件事上,已经不是在苦苦追赶,而是进入了真正的竞争状态。MI300X在2024年帮AMD把数据中心业务从接近零推到了几十亿美元,MI400是这条路上的延续。
AMD赢了的:
- 内存和带宽规格上有竞争力
- 开放互联标准,给云厂商提供了一个反锁定选项
- 拿到了真实的大客户(微软Azure、Meta等都在用AMD)
还没赢的:
- 软件生态深度
- 大模型训练的主流工具链默认选择
- CUDA护城河
258,000片 vs NVIDIA可能的数百万片——这个差距不是芯片性能决定的,是历史积累决定的。
短期内,AMD MI400对新建数据中心、没有历史包袱的云厂商来说是一个值得认真考虑的选项。但想撼动NVIDIA的基本盘,靠一代硬件的参数优势做不到。
讽刺的地方在于:AMD这次在纸面上是赢的。但AI市场从来不只看纸面。
参考来源:AMD confirms Instinct MI400 series AI GPUs drop in 2026, next-gen Instinct MI500 in 2027(Tweaktown);AMD's next-generation AI chips set to power 2026 data center growth(S&P Global Market Intelligence);NVIDIA vs AMD 2026: AI Chip Showdown(IBTimes Australia);AMD's next-gen Instinct MI400 GPU confirmed: rocks 432GB of HBM4 at 19.6TB/sec(Tweaktown)