Grok Computer进私测:靠读像素控制任何软件,连古董程序都躲不过

4月13日,xAI悄悄把Grok Computer的私测权限开放给了部分SuperGrok用户。没有发布会,Elon Musk在X上发了一条短消息确认了这件事,说接下来会很快扩大测试范围。

这个产品的定位是什么?xAI给了一个简洁的框架:Grok 4.3是脑,Grok Computer是手

不靠API,直接读你的屏幕

Grok Computer最值得关注的设计是它的底层逻辑:它不依赖任何应用程序的API接口。

绝大多数AI桌面控制工具的工作方式是通过软件提供的结构化接口来发出指令。这套方法上限清晰——软件得支持才行,没有API的老旧程序就没戏了。

Grok Computer走了另一条路:持续分析屏幕上最近5秒的视频画面,用视觉推理判断当前是什么应用、处于什么状态,然后直接操控鼠标和键盘。

换句话说,只要人眼能看懂的界面,它就能操作

这意味着:

  • 三十年前的企业老系统照样能用
  • SAP、Oracle这类没有暴露API的遗留软件不用做任何改造
  • 本地GUI程序、工业控制界面——理论上都没问题

工程上这是一种更粗暴的方法,识别速度不如API调用快,出错的可能性也更高。但覆盖范围大了一个量级。

能干什么

私测阶段已知的能力:

  • 打开、操作多个应用程序并在它们之间切换
  • 填写表单、提交信息
  • 跨应用链式多步任务:查数据 → 整理进表格 → 写分析摘要 → 发邮件,全自动跑完
  • 操作浏览器、办公软件、开发工具

一个典型例子:给它一个指令把过去一周的销售数字汇总成PPT——它会自己打开数据文件、提取关键数字、打开PowerPoint、建表格、写摘要、保存文件。你不需要坐在旁边盯着屏幕。

这种多步自动化的价值在于:你不是在给AI发指令,而是把一项需要来回点十几次的任务整体外包出去

和其他工具比

AI桌面自动化这条赛道,目前主要玩家:

工具 底层机制 覆盖范围 状态
Grok Computer 像素读屏+视觉推理 任意GUI软件 私测中
GPT-5.4 Computer Use 截图+指令生成 支持的现代软件 已上线
Anthropic Computer Use 截图+鼠标键盘动作 主流应用 已上线
Claude Code 终端+代码执行 开发场景 已上线

OpenAI和Anthropic的computer use功能更早发布,用户基础更大。Grok Computer的差异化在于:明确选了兼容所有软件这个方向,代价是对视觉推理能力的要求更高。

这个选择能不能成立,很大程度上取决于底层模型有多能看懂复杂的屏幕状态——Grok 4.3目前担任这个角色,实际能力还在验证中。

现阶段的限制

几点得说清楚:

访问门槛高。目前只有被邀请的SuperGrok账户才能进,普通用户没有入口。

没有公开定价。xAI没有公布Grok Computer的价格计划,也没说会不会单独收费,还是捆绑在SuperGrok订阅里。

稳定性未知。私测阶段的东西,边界都是未知数。xAI没有发布任何成功率数据或基准测试结果。

更大的期待在Grok 5。xAI自己也暗示了,Grok Computer的真正潜力要等下一代推理模型上线才能体现。Grok 5目前在Memphis的Colossus 2超算集群上训练,目标是万亿参数级别的MoE架构,预计Q2 2026完成训练。手的上限取决于脑能走多远。

这件事的意义

AI agent控制真实软件这条路,各家都在探索。OpenAI有Codex Agent和Computer Use,Anthropic有Claude Code加Computer Use API,Google在Gemini里也在做类似的事。

Grok Computer做了一个明确的架构选择:用通用视觉能力替代依赖软件配合的API集成。这个判断背后的逻辑是:企业实际IT环境里,很多核心业务系统几十年没换过,那些系统不会有人给你加API。

能不能跑通,等几个月看实际效果。不过xAI愿意在这条路上走,本身就是个值得关注的信号。

参考来源:Grok 4.3 Beta Features Review(Build Fast With AI)、Grok Computer: xAI's AI Agent That Controls Your Entire PC(DEXTools News)