你以为AI Agent在帮你长时间自主干活?Anthropic拿出了真实数据——大多数任务45秒就完了。
但另一个数字更值得关注:最长的那些session,正在以两倍速度变长。
研究方法
Anthropic分析了Claude Code和API上的几百万次真实交互,目标是搞清楚三件事:人们给Agent多少自主权、Agent在哪些场景被部署、可能存在哪些风险。
这是业内第一次用规模化真实使用数据来测量AI Agent自主程度,而不是靠评测基准或者沙盒实验。
最重要的数据
中位数session时长:45秒
绝大多数Agent任务是短平快的。不是什么几小时的复杂项目,就是一个具体的小任务。
但是: 2025年10月到2026年1月,Claude Code里99.9分位数的session时长从不到25分钟涨到了超过45分钟。也就是说,最长的那0.1%任务,在三个月里翻了一倍。
这个趋势意味着:顶端的重度用户正在把AI Agent推入越来越长、越来越复杂的工作流。
用在哪里
软件工程占了全部工具调用的49.7%。这个比例很符合直觉——程序员是最早大规模用Agent的群体,Claude Code本来就是为这个场景设计的。
但后面的数字更有意思:
| 场景 | 占比 |
|---|---|
| 软件工程 | 49.7% |
| 后台自动化 | 9.1% |
| 营销/文案 | 4.4% |
| 销售/CRM | 4.3% |
| 财务/会计 | 4.0% |
| 数据分析 | 3.5% |
后台自动化、财务、销售这些场景正在悄悄渗透进来。这不是实验室里的demo,是真实企业在用AI Agent处理实际业务流程。
人类监督还在不在
80% 的工具调用有至少一道防护措施。73% 有人类介入的环节。只有 0.8% 的操作是不可逆的。
这些数字总体上是乐观的——说明大多数企业在部署Agent时还是保留了安全阀。
但用户行为有个有趣的变化规律:
- 新用户:约20%的任务选择全自动审批
- 有经验的用户(750次以上session):全自动比例超过40%
这看起来像是随着信任度提升,人类在放权。但同期中断率也在涨——从5%涨到了9%。
这说明有经验的用户不是在无脑放手,而是在换一种监督方式:从逐步审批每个动作,转向整体监控、有问题再介入。
AI Agent自己也在主动暂停
一个意外发现:Claude Code在复杂任务上请求澄清的频率,是简单任务的两倍以上,而且这个主动暂停的频率比人类手动中断还要高。
也就是说,模型自己能识别出”这个我不确定,得问一下”的时机。这比单纯的人类监督更细粒度。
Deployment Overhang
研究提出了一个概念:deployment overhang(部署悬挂)。
意思是:现在的模型处理的自主程度,其实已经低于它的能力上限。随着时间推移,用户会逐渐把任务推到边界——更长的session、更少的干预、更复杂的任务链。
这对安全的含义是:光靠发布前的测试不够用了,需要建立部署后的持续监控基础设施。就像开车不只靠出厂检测,还要靠行车记录仪和交规执法。
参考来源:Measuring AI agent autonomy in practice(Anthropic Research);The Autonomy Gap: What Anthropic Learned Watching Millions of AI Agent Interactions(Shashi.co)