Token推理价砍到十分之一:Dell搬出NVIDIA Vera Rubin新服务器,黄仁勋报了$3万亿的账

十分之一。

这是Dell和NVIDIA今天在Tech World大会上扔出来的最硬数字。新一代服务器Dell PowerEdge XE9812跑agentic AI推理,每个token的成本比现役的Blackwell便宜90%。

机器搭的是NVIDIA Vera Rubin NVL72——黄仁勋憋了一年的下一代AI芯片平台。Vera是CPU、Rubin是GPU、NVL72是机柜级集成。PowerEdge XE9812是第一个用上Vera Rubin的量产服务器。

Vera Rubin到底强在哪

黄仁勋在主舞台的原话:

“We’ve now arrived at the era of useful AI, which is the reason why demand is going parabolic, utterly parabolic.”

为了说明这事不是嘴炮,他甩了一组数:

  • Vera CPU:1.2 TB/s内存带宽,agentic任务比x86处理器跑得快50%
  • 数据库查询:Starburst、DuckDB跑出3倍速度
  • PowerEdge XE9880L / 9885L / 9882L 系列:用HGX Rubin NVL8,单机柜塞下144块GPU,性能比HGX B200高5.5倍,全部100%直接液冷

光看144 GPU/机柜这个密度——上一代NVL72是72块——Rubin直接翻了一倍。配上液冷把热密度拉上去,单机柜算力是Blackwell时代的5倍多。

推理成本砍到1/10这条得拆开看。一部分来自芯片本身的能效提升,另一部分来自Vera CPU + Rubin GPU这种深度耦合——CPU不再是GPU的瓶颈,token吞吐才能拉到设计上限。

Michael Dell给2030年开了张$3万亿的清单

硬件是一回事,钱怎么花是另一回事。Michael Dell在keynote上把账算清了:

  • 全球AI基础设施支出到2030年会到 $3–$4万亿
  • token消费量同期会涨 3400%

他自己加了一句:

“The rate of change has gone parabolic, and it’s not slowing down.”

“parabolic”这个词他和黄仁勋都用了,意思一样——这条曲线还在加速往上拐,看不到要平的样子。

$3–4万亿是什么概念?2024年全球数据中心capex大概在3000亿美金量级。十倍。

Dell敢这么算,是因为客户名单已经在坐实:

  • Eli Lilly:在Dell的基础设施上跑了15年,现在用来训AI大模型,LillyPod超算单集群读带宽接近2 TB/s,1000+块GPU满载
  • 三星:用来做芯片设计的R&D
  • Honeywell:跑工业AI、数字孪生,押到中东油气场景
  • Hudson River Trading:算法交易

这四家不是PPT客户。他们已经在用Dell on-prem的方案跑生产任务,PowerEdge XE9812这次更新是给他们升级换代——不是从零开始拉一个客户。

一个被忽略的细节:液冷已经是标配

Dell这次发的PowerEdge XE9880L、XE9885L、XE9882L全部是100%直接液冷。这件事的意义是——风冷的时代结束了。

NVL8单机柜144块GPU、功率密度推到接近100kW这种量级,风冷根本压不住。换句话说,企业要部署Vera Rubin,机房得先改造液冷。这是另一笔可见的资本支出,但Dell没展开讲。

把这条线拉出来看,Dell今天的故事其实分两段:

  • 明面:推理成本砍到1/10、token吞吐翻5倍
  • 暗线:要用上这套硬件,机房得先掏一大笔钱改液冷

第一段是销售用的,第二段是CIO们今晚要算的账。

参考来源:NVIDIA CEO Jensen Huang at Dell Technologies World: Demand Is Going Parabolic, Utterly Parabolic (NVIDIA Blog); Dell Technologies World 2026: Enterprise AI Announcements This Week (Dell Blog)