说个你可能没想到的事。
Meta最近宣布了一件事,但没有大声嚷嚷:他们要开始记录员工的每一次键盘敲击、每一次鼠标点击——用来训练能自动操控电脑的AI Agent。
不是外部用户,是员工。是那些每天在Meta公司办公室上班的人。
他们到底要收集什么
按照Meta的说法,他们要抓取的数据包括:
- 鼠标移动轨迹
- 按下了哪个按钮
- 在下拉菜单里选了什么
- 在各种应用程序里的导航路径
翻译过来就是:你怎么用电脑,他们都要录下来。
Meta对外的解释是,这些数据会用来训练帮助人们完成日常电脑任务的AI Agent。
目的听起来挺合理——想做一个真正能用电脑的AI,最好的方式当然是看人类怎么用。但问题在于,他们选择的数据来源是自己的员工,而不是经过特别设计的数据收集流程。
为什么这件事比听起来更微妙
先说行业背景。
过去两年,各家AI公司对下一代Agent的押注已经越来越向电脑操控倾斜——不是只会聊天,而是能打开应用、填表、点击按钮、帮你把事情做完。这类能力叫 computer use 或者 computer-use agent。
问题是,训练这种Agent需要大量真实的人机交互数据。公开的数据集质量参差不齐,自己采集又贵又慢。
最方便的数据在哪里?就在公司内部的员工那里。
这不是Meta一家的想法。路透社的报道里提到,这正在成为一种行业趋势:Slack聊天记录、Jira工单、员工的操作日志,都在被各家公司悄悄纳入AI训练的考量范围。
Meta只是第一家把这件事明着说出来的。
合理吗?
Meta给出了一个标准答案:收集到的数据有保护措施,不会被用于其他目的。
但这个答案回避了几个真正的问题:
哪些应用在被监控? 如果你在用公司电脑登录私人账号、查私人邮件,这些操作会被记录吗?
员工有拒绝权吗? 还是这属于入职协议里已经授权的范围,没有选择余地?
数据能做到真正隔离吗? 保证不用于其他目的很容易说,但在AI训练链条上,数据的流向本来就很难追踪。
这些问题,Meta的声明里都没有回答。
真正值得盯住的
Meta要做computer-use Agent这件事本身不让人意外。OpenAI有Codex,Anthropic有Claude Computer Use,Google在测自主浏览器控制。这条赛道大家都在跑。
真正要盯住的是一个更大的问题:AI训练数据的边界,正在被重新划定。
之前大家讨论的是能不能用互联网公开数据训练,现在开始有人问能不能用员工行为数据训练,下一个会是什么?用户在产品里的操作记录?用户和AI的对话历史?
这些数据在使用条款里可能都已经授权了,但用户(或者员工)在签协议的时候,大概没想到这是在给AI打数据标注的工。
一个能代替人类操控电脑的AI,需要人类的操作数据来学习——这本来是个技术问题,但现在开始变成一个更复杂的伦理问题。
Meta的这个消息,是这场讨论的开始,不是结尾。
参考来源:Meta will record employees's keystrokes and use it to train its AI models(TechCrunch)