Anthropic分析了几百万次AI Agent真实数据:大多数任务45秒结束,但顶端的在悄悄变长

你以为AI Agent在帮你长时间自主干活?Anthropic拿出了真实数据——大多数任务45秒就完了。

但另一个数字更值得关注:最长的那些session,正在以两倍速度变长。

研究方法

Anthropic分析了Claude Code和API上的几百万次真实交互,目标是搞清楚三件事:人们给Agent多少自主权、Agent在哪些场景被部署、可能存在哪些风险。

这是业内第一次用规模化真实使用数据来测量AI Agent自主程度,而不是靠评测基准或者沙盒实验。

最重要的数据

中位数session时长:45秒

绝大多数Agent任务是短平快的。不是什么几小时的复杂项目,就是一个具体的小任务。

但是: 2025年10月到2026年1月,Claude Code里99.9分位数的session时长从不到25分钟涨到了超过45分钟。也就是说,最长的那0.1%任务,在三个月里翻了一倍。

这个趋势意味着:顶端的重度用户正在把AI Agent推入越来越长、越来越复杂的工作流。

用在哪里

软件工程占了全部工具调用的49.7%。这个比例很符合直觉——程序员是最早大规模用Agent的群体,Claude Code本来就是为这个场景设计的。

但后面的数字更有意思:

场景 占比
软件工程 49.7%
后台自动化 9.1%
营销/文案 4.4%
销售/CRM 4.3%
财务/会计 4.0%
数据分析 3.5%

后台自动化、财务、销售这些场景正在悄悄渗透进来。这不是实验室里的demo,是真实企业在用AI Agent处理实际业务流程。

人类监督还在不在

80% 的工具调用有至少一道防护措施。73% 有人类介入的环节。只有 0.8% 的操作是不可逆的。

这些数字总体上是乐观的——说明大多数企业在部署Agent时还是保留了安全阀。

但用户行为有个有趣的变化规律:

  • 新用户:约20%的任务选择全自动审批
  • 有经验的用户(750次以上session):全自动比例超过40%

这看起来像是随着信任度提升,人类在放权。但同期中断率也在涨——从5%涨到了9%。

这说明有经验的用户不是在无脑放手,而是在换一种监督方式:从逐步审批每个动作,转向整体监控、有问题再介入。

AI Agent自己也在主动暂停

一个意外发现:Claude Code在复杂任务上请求澄清的频率,是简单任务的两倍以上,而且这个主动暂停的频率比人类手动中断还要高。

也就是说,模型自己能识别出”这个我不确定,得问一下”的时机。这比单纯的人类监督更细粒度。

Deployment Overhang

研究提出了一个概念:deployment overhang(部署悬挂)。

意思是:现在的模型处理的自主程度,其实已经低于它的能力上限。随着时间推移,用户会逐渐把任务推到边界——更长的session、更少的干预、更复杂的任务链。

这对安全的含义是:光靠发布前的测试不够用了,需要建立部署后的持续监控基础设施。就像开车不只靠出厂检测,还要靠行车记录仪和交规执法。


参考来源:Measuring AI agent autonomy in practice(Anthropic Research);The Autonomy Gap: What Anthropic Learned Watching Millions of AI Agent Interactions(Shashi.co)