英伟达给机器人开源了一个「世界模型」:Cosmos 3 把训练周期从几个月压到几天,16B 版工作站就能跑

英伟达这次没发新芯片,发了个模型——而且是开源的。

Cosmos 3,黄仁勋给它的定位是「物理 AI 的开源前沿基础模型」。说人话:以前大模型只会读文字、看图、生成视频,Cosmos 3 想让机器人和自动驾驶车真正「脑补」出物理世界接下来会发生什么,然后自己定手该怎么动、轮子往哪儿转。

一个模型同时管看、想、动

Cosmos 3 的核心是一套混合 transformer 架构——一个负责推理的 transformer 配一个专做生成的 transformer。前者先搞清楚物体之间怎么互动、东西怎么动、空间和时间的关系,后者再据此生成视频和动作轨迹。

它真正不一样的地方,是直接吐「动作数据」:机器人关节该转多少度、夹爪开多大、轨迹怎么走。这些以前都得靠人在真实环境里一遍遍采,现在模型能合成。

英伟达说,这把物理 AI 的训练和评测周期从几个月压到了几天。

三个尺寸,最小的能塞进工作站

这次一口气放了三个版本:

版本 参数 跑在哪
Cosmos 3 Nano 16B 工作站,一块 RTX PRO 6000 就行
Cosmos 3 Super 64B 数据中心,Hopper / Blackwell
Cosmos 3 Edge 待发布 边缘端实时推理

16B 这个尺寸值得说一句——意味着做机器人的小团队不用租云,自己工作站就能跑起来调。

跑分上,英伟达列了一长串第一:世界生成方向的 Physics-IQ、PAI-Bench、R-Bench,动作策略方向的 RoboArena,外加几个视觉理解的榜,Cosmos 3 都排在头名。当然这是英伟达自己挑的榜,真实表现还得等社区上手。

顺手拉了一帮人组队

光开源还不够,英伟达又搞了个「Cosmos 联盟」,创始成员里有 Agile Robots、Black Forest Labs、Generalist、LTX、Runway、Skild AI——既有做机器人的,也有做视频生成的。

黄仁勋的原话:

“The Cosmos 3 family of open, frontier omnimodels gives developers a generational leap in ability to build robots, autonomous vehicles and vision AI.”

讲人话就是——他认为这是做机器人、自动驾驶和视觉 AI 的人,能力上的一次「换代」。

有意思的是路线选择。Physical AI 这条赛道现在挤满了人,但多数公司是闭源自己练。英伟达反着来,把底座开源出去,联盟拉满——它赌的不是某一台机器人卖得好,是所有人都用它的模型、它的芯片来训机器人。卖铲子的逻辑,又跑了一遍。

参考来源:NVIDIA Launches Cosmos 3, the Open Frontier Foundation Model for Physical AI(NVIDIA Newsroom);Nvidia launches Cosmos 3, an open AI world model for robots, self-driving cars, and physical AI(Tech Startups);Nvidia's Cosmos 3 open AI world model helps robots, autonomous vehicles(Axios)