工厂里一台压力表的读数是多少,这件事听起来很简单,但以前机器人做不到。
不是说机器人看不到表盘——它能拍照,能识别这里有个圆形仪表。但”表盘上的指针指向237,单位是PSI,当前读数异常”这样的判断,需要结合视觉理解、数值推理、上下文知识,还要知道”237 PSI”在当前设备上意味着什么。
Google DeepMind在4月15日发布了Gemini Robotics-ER 1.6,在这个能力上给了一个具体的数字:仪表读取准确率86%,启用Agentic Vision之后达到93%。对比上一个版本?23%。
这不是小幅迭代,这是从”基本不能用”到”可以进工业场景”的跨越。
这个模型到底在做什么
Gemini Robotics-ER的全称是Embodied Reasoning,字面意思是”具身推理”——让AI不只是看,而是在看的基础上规划动作、判断是否完成任务。
1.6版本主要升级了四个方向:
仪表读取(Instrument Reading)
这是最核心的新能力。Spot机器人在工厂里巡检时,面对的是压力表、温度计、液位计这类模拟仪表,上面的读数需要精确提取。以前的视觉AI很容易在”这个表大约在中间”和”具体是237 PSI”之间犯错。
1.6的做法是把视觉推理和代码执行结合起来:先截图,然后用代码估算表盘区间和指针位置,再给出读数——精度达到小于一个刻度单位。这是DeepMind和Boston Dynamics在实际使用中发现的需求,然后专门针对它开发的。
多视角理解(Multi-View Understanding)
机器人上通常有多个摄像头。以前模型处理多路画面时很容易混乱——“这个物体在哪个摄像头里?和另一个摄像头里的是同一个吗?”1.6能同时处理多路视觉输入,把它们整合成一个连贯的场景理解。
空间推理(Pointing & Spatial Reasoning)
通过”先定位关键点,再推理空间关系”的方式,提升了数物体、找抓取点这类任务的准确率。
任务完成判断(Success Detection)
在遮挡或光线差的环境下,判断”这个任务完成了没有”对机器人来说一直是个难点。1.6在这个方面有明显改进,让机器人能自主决定是否要重试——不需要再远程连线问人。
Boston Dynamics是怎么用的
Boston Dynamics的Spot机器人有一条成熟的工业检测产品线:进工厂巡检、录音录像、记录设备状态。但以前Spot能看到表盘,却不能准确读出数字——要么靠工人跟着看,要么Spot拍完照片发回来再人工判读。
现在这个环节可以去掉了。
Boston Dynamics VP Marco da Silva说:”仪表读取和更可靠的任务推理,将让Spot能完全自主地看懂、理解并响应现实世界里的挑战。”
这不是营销话术,是一个具体的使用场景改变:以前人要跟着Spot去记录每台设备的读数,现在可以让Spot完全自主地完成整个巡检路线,人只需要看最终报告。
数字说明问题
直接看性能对比:
| 能力 | Gemini Robotics-ER 1.5 | Gemini Robotics-ER 1.6 |
|---|---|---|
| 仪表读取准确率 | 23% | 86%(Agentic Vision: 93%) |
| 视频安全风险感知 | 基准值 | +10% |
| 文本安全风险感知 | 基准值 | +6% |
仪表读取从23%到86%——这个跨度基本上意味着这个功能从原型阶段进入了实用阶段。
API开放意味着什么
Gemini Robotics-ER 1.6通过Gemini API和Google AI Studio向开发者开放,这个分发方式很重要。
硬件厂商(不只是Boston Dynamics)现在可以直接调用这个模型,把高级视觉推理接入自己的机器人平台——不需要自己训练,不需要维护模型权重,只要API调用。这把门槛降低了很多,也让DeepMind的机器人AI能更快渗透到各种工业场景里。
这和Waymo把路测数据积累成护城河的逻辑不同:DeepMind走的是平台路线,让第三方硬件合作伙伴去普及能力。谁的机器人用了它,谁就在工业巡检上多了一块可以直接商业化的能力。
工业机器人距离”进工厂一个人都不需要跟”可能还有一段路,但Spot能读仪表盘这件事,已经是走到了更近的地方。
参考来源:Gemini Robotics ER 1.6: Enhanced Embodied Reasoning(Google DeepMind Blog);DeepMind launches Gemini Robotics-ER 1.6 to meet precise physical AI demands(SiliconANGLE);Google DeepMind Releases Gemini Robotics-ER 1.6(MarkTechPost)