英伟达这次没发新芯片,发了个模型——而且是开源的。
Cosmos 3,黄仁勋给它的定位是「物理 AI 的开源前沿基础模型」。说人话:以前大模型只会读文字、看图、生成视频,Cosmos 3 想让机器人和自动驾驶车真正「脑补」出物理世界接下来会发生什么,然后自己定手该怎么动、轮子往哪儿转。
一个模型同时管看、想、动
Cosmos 3 的核心是一套混合 transformer 架构——一个负责推理的 transformer 配一个专做生成的 transformer。前者先搞清楚物体之间怎么互动、东西怎么动、空间和时间的关系,后者再据此生成视频和动作轨迹。
它真正不一样的地方,是直接吐「动作数据」:机器人关节该转多少度、夹爪开多大、轨迹怎么走。这些以前都得靠人在真实环境里一遍遍采,现在模型能合成。
英伟达说,这把物理 AI 的训练和评测周期从几个月压到了几天。
三个尺寸,最小的能塞进工作站
这次一口气放了三个版本:
| 版本 | 参数 | 跑在哪 |
|---|---|---|
| Cosmos 3 Nano | 16B | 工作站,一块 RTX PRO 6000 就行 |
| Cosmos 3 Super | 64B | 数据中心,Hopper / Blackwell |
| Cosmos 3 Edge | 待发布 | 边缘端实时推理 |
16B 这个尺寸值得说一句——意味着做机器人的小团队不用租云,自己工作站就能跑起来调。
跑分上,英伟达列了一长串第一:世界生成方向的 Physics-IQ、PAI-Bench、R-Bench,动作策略方向的 RoboArena,外加几个视觉理解的榜,Cosmos 3 都排在头名。当然这是英伟达自己挑的榜,真实表现还得等社区上手。
顺手拉了一帮人组队
光开源还不够,英伟达又搞了个「Cosmos 联盟」,创始成员里有 Agile Robots、Black Forest Labs、Generalist、LTX、Runway、Skild AI——既有做机器人的,也有做视频生成的。
黄仁勋的原话:
“The Cosmos 3 family of open, frontier omnimodels gives developers a generational leap in ability to build robots, autonomous vehicles and vision AI.”
讲人话就是——他认为这是做机器人、自动驾驶和视觉 AI 的人,能力上的一次「换代」。
有意思的是路线选择。Physical AI 这条赛道现在挤满了人,但多数公司是闭源自己练。英伟达反着来,把底座开源出去,联盟拉满——它赌的不是某一台机器人卖得好,是所有人都用它的模型、它的芯片来训机器人。卖铲子的逻辑,又跑了一遍。
参考来源:NVIDIA Launches Cosmos 3, the Open Frontier Foundation Model for Physical AI(NVIDIA Newsroom);Nvidia launches Cosmos 3, an open AI world model for robots, self-driving cars, and physical AI(Tech Startups);Nvidia's Cosmos 3 open AI world model helps robots, autonomous vehicles(Axios)