带着iPhone拍洗碗、折衣服,月入几千块:人形机器人的训练数据来自全球数万名打工者

人形机器人领域最近一直在讲”走进工厂”、”走进家庭”,但很少有人说清楚这些机器人是怎么学会做事的。答案不是某个神奇的大模型,而是分布在全球几十个国家的兼职工人,用绑在额头上的iPhone一帧一帧地拍自己洗碗、折衣服、炒鸡蛋。

这是MIT科技评论在4月初的一篇报道揭开的事实。

头戴iPhone,走进厨房

具体怎么操作:把一部iPhone绑在额头上,对准自己的手,然后按照任务说明做各种家务——折叠毛巾、把菜从锅里铲进碗里、整理厨房台面。每次任务通常几十分钟,视频上传后由AI和人工审核员联合打标,标出每个动作的开始时间、结束时间、手的位置。

做这件事的主要是加州Palo Alto一家叫Micro1的公司,覆盖50多个国家的合同工人,主力在尼日利亚、印度和阿根廷。时薪15美元,以当地收入水平算不错。

雇主端,Tesla、Figure AI、Agility Robotics这些做人形机器人的公司都在买这些数据。机器人要学会在真实家庭环境里干活,靠模拟器远远不够,真实的人类操作数据是不可替代的原材料。

不只是Micro1。Scale AI自称收集了超过10万小时的类似数据。DoorDash甚至在付钱让外卖员顺手拍自己做家务的过程。整个行业每年花在真实世界训练数据上的钱超过1亿美元

这不是第一次,但规模在变大

AI训练数据靠人工标注这件事不新鲜。早年的图像识别靠Amazon Mechanical Turk工人,NLP靠大量的文本标注。但人形机器人的训练数据有个本质区别:它需要的不是文字或图片的分类,而是动作的三维时序数据,带着力度、节奏、空间坐标。

这件事不能靠纯合成数据解决,因为机器人在真实物理世界里遇到的摩擦、重量、材质差异太多。Scale AI的数据越来越多地来自专门招募的工人在家录制的视频,而不是实验室里的专业人员。

这意味着什么?意味着人形机器人的能力边界,某种程度上是被分布在全球的家庭厨房决定的。一个机器人能不能折叠不同材质的毛巾,取决于有没有人拍过足够多对应材质的操作视频。

15美元一小时:这份工作长期稳定吗?

工人们对这份工作的感受相当正面。

“感觉自己在做一件和全世界都不一样的事。”(参与者Zeus)

另一个叫Dattu的工人说感觉自己在”留下印记”,让数据参与到机器人的成长里。但研究者对这个行业的可持续性有疑问。UC Berkeley的Ken Goldberg直接说:

“大家低估了要收集到足够安全可用的机器人训练数据需要多长时间。”

更实际的问题是隐私。工人拍摄的内容不只是自己的手,还有家里的摆设、家庭照片、生活习惯、房间布局。Micro1说会去除面部和敏感信息,但工人本人不知道数据最终给了哪家公司、存在哪里、会不会被转售。有人提出过删除请求,但没人知道结果如何。

马里兰大学的研究者Yasmine Kotturi认为,这种信息不对称是个结构性问题:工人承担了信息风险,但没有得到相应的知情权。

还有一个隐患:ASTM International的Aaron Prather指出,如果工人在录制时操作不规范(比如用了不安全的切法),这些”错误示范”可能被打包进训练数据,让机器人学到危险习惯。

这条供应链不会消失

数据供应商 数据量 主要工人来源
Scale AI 100,000+ 小时 全球分散
Micro1 数万小时 尼日利亚、印度、阿根廷
DoorDash 未披露 外卖配送员

人形机器人要真正做到”进家庭”,需要处理的场景多到不可思议:各种形状的家具、各种材质的衣物、各种布局的厨房、各种高度的台面。这不是靠几千小时数据能解决的量,而是靠几百万小时。

这条全球化的、分散化的数据供应链会长期存在,而且会越来越庞大。在机器人能够完全自主学习之前,人类必须先演示给它看。

只不过,负责演示的那个人,可能是在尼日利亚某个租来的公寓里,头上绑着一部iPhone,一边洗碗一边帮未来的机器人学走路。

参考来源:The gig workers who are training humanoid robots at home(MIT Technology Review)