带着iPhone拍洗碗、折衣服，月入几千块：人形机器人的训练数据来自全球数万名打工者 - News

人形机器人领域最近一直在讲”走进工厂”、”走进家庭”，但很少有人说清楚这些机器人是怎么学会做事的。答案不是某个神奇的大模型，而是分布在全球几十个国家的兼职工人，用绑在额头上的iPhone一帧一帧地拍自己洗碗、折衣服、炒鸡蛋。

这是MIT科技评论在4月初的一篇报道揭开的事实。

头戴iPhone，走进厨房

具体怎么操作：把一部iPhone绑在额头上，对准自己的手，然后按照任务说明做各种家务——折叠毛巾、把菜从锅里铲进碗里、整理厨房台面。每次任务通常几十分钟，视频上传后由AI和人工审核员联合打标，标出每个动作的开始时间、结束时间、手的位置。

做这件事的主要是加州Palo Alto一家叫Micro1的公司，覆盖50多个国家的合同工人，主力在尼日利亚、印度和阿根廷。时薪15美元，以当地收入水平算不错。

雇主端，Tesla、Figure AI、Agility Robotics这些做人形机器人的公司都在买这些数据。机器人要学会在真实家庭环境里干活，靠模拟器远远不够，真实的人类操作数据是不可替代的原材料。

不只是Micro1。Scale AI自称收集了超过10万小时的类似数据。DoorDash甚至在付钱让外卖员顺手拍自己做家务的过程。整个行业每年花在真实世界训练数据上的钱超过1亿美元。

AI训练数据靠人工标注这件事不新鲜。早年的图像识别靠Amazon Mechanical Turk工人，NLP靠大量的文本标注。但人形机器人的训练数据有个本质区别：它需要的不是文字或图片的分类，而是动作的三维时序数据，带着力度、节奏、空间坐标。

这件事不能靠纯合成数据解决，因为机器人在真实物理世界里遇到的摩擦、重量、材质差异太多。Scale AI的数据越来越多地来自专门招募的工人在家录制的视频，而不是实验室里的专业人员。

这意味着什么？意味着人形机器人的能力边界，某种程度上是被分布在全球的家庭厨房决定的。一个机器人能不能折叠不同材质的毛巾，取决于有没有人拍过足够多对应材质的操作视频。

工人们对这份工作的感受相当正面。

“感觉自己在做一件和全世界都不一样的事。”（参与者Zeus）

另一个叫Dattu的工人说感觉自己在”留下印记”，让数据参与到机器人的成长里。但研究者对这个行业的可持续性有疑问。UC Berkeley的Ken Goldberg直接说：

“大家低估了要收集到足够安全可用的机器人训练数据需要多长时间。”

更实际的问题是隐私。工人拍摄的内容不只是自己的手，还有家里的摆设、家庭照片、生活习惯、房间布局。Micro1说会去除面部和敏感信息，但工人本人不知道数据最终给了哪家公司、存在哪里、会不会被转售。有人提出过删除请求，但没人知道结果如何。

马里兰大学的研究者Yasmine Kotturi认为，这种信息不对称是个结构性问题：工人承担了信息风险，但没有得到相应的知情权。

还有一个隐患：ASTM International的Aaron Prather指出，如果工人在录制时操作不规范（比如用了不安全的切法），这些”错误示范”可能被打包进训练数据，让机器人学到危险习惯。

人形机器人要真正做到”进家庭”，需要处理的场景多到不可思议：各种形状的家具、各种材质的衣物、各种布局的厨房、各种高度的台面。这不是靠几千小时数据能解决的量，而是靠几百万小时。

这条全球化的、分散化的数据供应链会长期存在，而且会越来越庞大。在机器人能够完全自主学习之前，人类必须先演示给它看。

只不过，负责演示的那个人，可能是在尼日利亚某个租来的公寓里，头上绑着一部iPhone，一边洗碗一边帮未来的机器人学走路。

参考来源：The gig workers who are training humanoid robots at home（MIT Technology Review）