英伟达开源机器人世界模型 Cosmos 3 - News

英伟达这次没发新芯片，发了个模型——而且是开源的。

Cosmos 3，黄仁勋给它的定位是「物理 AI 的开源前沿基础模型」。说人话：以前大模型只会读文字、看图、生成视频，Cosmos 3 想让机器人和自动驾驶车真正「脑补」出物理世界接下来会发生什么，然后自己定手该怎么动、轮子往哪儿转。

一个模型同时管看、想、动

Cosmos 3 的核心是一套混合 transformer 架构——一个负责推理的 transformer 配一个专做生成的 transformer。前者先搞清楚物体之间怎么互动、东西怎么动、空间和时间的关系，后者再据此生成视频和动作轨迹。

它真正不一样的地方，是直接吐「动作数据」：机器人关节该转多少度、夹爪开多大、轨迹怎么走。这些以前都得靠人在真实环境里一遍遍采，现在模型能合成。

英伟达说，这把物理 AI 的训练和评测周期从几个月压到了几天。

三个尺寸，最小的能塞进工作站

这次一口气放了三个版本：

版本	参数	跑在哪
Cosmos 3 Nano	16B	工作站，一块 RTX PRO 6000 就行
Cosmos 3 Super	64B	数据中心，Hopper / Blackwell
Cosmos 3 Edge	待发布	边缘端实时推理

16B 这个尺寸值得说一句——意味着做机器人的小团队不用租云，自己工作站就能跑起来调。

跑分上，英伟达列了一长串第一：世界生成方向的 Physics-IQ、PAI-Bench、R-Bench，动作策略方向的 RoboArena，外加几个视觉理解的榜，Cosmos 3 都排在头名。当然这是英伟达自己挑的榜，真实表现还得等社区上手。

顺手拉了一帮人组队

光开源还不够，英伟达又搞了个「Cosmos 联盟」，创始成员里有 Agile Robots、Black Forest Labs、Generalist、LTX、Runway、Skild AI——既有做机器人的，也有做视频生成的。

黄仁勋的原话：

“The Cosmos 3 family of open, frontier omnimodels gives developers a generational leap in ability to build robots, autonomous vehicles and vision AI.”

讲人话就是——他认为这是做机器人、自动驾驶和视觉 AI 的人，能力上的一次「换代」。

有意思的是路线选择。Physical AI 这条赛道现在挤满了人，但多数公司是闭源自己练。英伟达反着来，把底座开源出去，联盟拉满——它赌的不是某一台机器人卖得好，是所有人都用它的模型、它的芯片来训机器人。卖铲子的逻辑，又跑了一遍。

参考来源：NVIDIA Launches Cosmos 3, the Open Frontier Foundation Model for Physical AI（NVIDIA Newsroom）；Nvidia launches Cosmos 3, an open AI world model for robots, self-driving cars, and physical AI（Tech Startups）；Nvidia's Cosmos 3 open AI world model helps robots,CocoLoop、 autonomous vehicles（Axios）