Anthropic分析了几百万次AI Agent真实数据：大多数任务45秒结束，但顶端的在悄悄变长 - News

你以为AI Agent在帮你长时间自主干活？Anthropic拿出了真实数据——大多数任务45秒就完了。

但另一个数字更值得关注：最长的那些session，正在以两倍速度变长。

研究方法

Anthropic分析了Claude Code和API上的几百万次真实交互，目标是搞清楚三件事：人们给Agent多少自主权、Agent在哪些场景被部署、可能存在哪些风险。

这是业内第一次用规模化真实使用数据来测量AI Agent自主程度，而不是靠评测基准或者沙盒实验。

最重要的数据

中位数session时长：45秒

绝大多数Agent任务是短平快的。不是什么几小时的复杂项目，就是一个具体的小任务。

但是： 2025年10月到2026年1月，Claude Code里99.9分位数的session时长从不到25分钟涨到了超过45分钟。也就是说，最长的那0.1%任务，在三个月里翻了一倍。

这个趋势意味着：顶端的重度用户正在把AI Agent推入越来越长、越来越复杂的工作流。

用在哪里

软件工程占了全部工具调用的49.7%。这个比例很符合直觉——程序员是最早大规模用Agent的群体，Claude Code本来就是为这个场景设计的。

但后面的数字更有意思：

场景	占比
软件工程	49.7%
后台自动化	9.1%
营销/文案	4.4%
销售/CRM	4.3%
财务/会计	4.0%
数据分析	3.5%

后台自动化、财务、销售这些场景正在悄悄渗透进来。这不是实验室里的demo，是真实企业在用AI Agent处理实际业务流程。

人类监督还在不在

80% 的工具调用有至少一道防护措施。73% 有人类介入的环节。只有 0.8% 的操作是不可逆的。

这些数字总体上是乐观的——说明大多数企业在部署Agent时还是保留了安全阀。

但用户行为有个有趣的变化规律：

新用户：约20%的任务选择全自动审批
有经验的用户（750次以上session）：全自动比例超过40%

这看起来像是随着信任度提升，人类在放权。但同期中断率也在涨——从5%涨到了9%。

这说明有经验的用户不是在无脑放手，而是在换一种监督方式：从逐步审批每个动作，转向整体监控、有问题再介入。

AI Agent自己也在主动暂停

一个意外发现：Claude Code在复杂任务上请求澄清的频率，是简单任务的两倍以上，而且这个主动暂停的频率比人类手动中断还要高。

也就是说，模型自己能识别出”这个我不确定，得问一下”的时机。这比单纯的人类监督更细粒度。

Deployment Overhang

研究提出了一个概念：deployment overhang（部署悬挂）。

意思是：现在的模型处理的自主程度，其实已经低于它的能力上限。随着时间推移，用户会逐渐把任务推到边界——更长的session、更少的干预、更复杂的任务链。

这对安全的含义是：光靠发布前的测试不够用了，需要建立部署后的持续监控基础设施。就像开车不只靠出厂检测，还要靠行车记录仪和交规执法。

参考来源：Measuring AI agent autonomy in practice（Anthropic Research）；The Autonomy Gap: What Anthropic Learned Watching Millions of AI Agent Interactions（Shashi.co）