Claude会做梦了:Anthropic在Code with Claude上扔出来的,是Agent的自学循环

不是营销词,是真功能。

Anthropic 在 5 月 6 日 Code with Claude SF 现场宣布,Claude Managed Agents 加了一个叫 Dreaming 的能力——agent 干完活之后,会在”睡觉”的时候自己回看历史会话,把那些当时没意识到的模式提炼成长期记忆,下次再遇到类似的活,行为就跟着改了。

这事翻译成人话:以前 AI agent 干完一个任务就把脑子格式化了,下次再来一个新任务又从零开始;现在 agent 之间的”间隙时间”不再浪费,它会自己反思、自己总结、自己更新自己的记忆库。

听起来是不是很像人类下班之后躺床上复盘?Anthropic 自己用的就是这个比喻。

Dreaming 到底在做什么

技术上讲,Dreaming 是一个定时调度的进程,不是 agent 工作时顺手干的事。它会在 agent 的空闲时段被触发,遍历过去的会话和现有的记忆库,干三件事:

  • 找出重复犯的错——比如某个 agent 一周内在同一类 SQL 查询上栽了五次,单次会话里它意识不到,跨会话一对比就明显了
  • 找出收敛出来的工作流——多次成功完成同类任务时走过的有效路径
  • 找出团队层面的偏好——多个 agent 共享的命名规范、代码风格、汇报格式

提炼完之后,记忆系统不是简单堆叠,而是被重新结构化。Anthropic 在博客里强调的一句原话是:”Memory lets each agent capture what it learns as it works. Dreaming refines that memory between sessions.”

工作中学,工作后再消化——分两层。这才是它跟传统 RAG 或者 context window 那套机制的本质区别。

开发者对 Dreaming 的更新有两种控制方式:要么放手让它自动写进记忆,要么每次新发现都要人工 review 才生效。前者是无人值守的agent场景,后者更适合企业里需要审计的工作流。

目前 Dreaming 在 research preview 阶段。

Outcomes:把验收标准也交给 AI

跟 Dreaming 同时发布的还有一个 Outcomes 功能,干的是另一件事——帮 agent 自己判断”这活干得行不行”。

具体怎么玩:开发者写一份 rubric(评分标准),描述什么叫成功。然后系统会单独跑一个 grader(评分员)agent,在自己的独立上下文里去打分。打分员发现不达标,会指出具体问题,原 agent 再来一遍。

关键点在于 grader 是单独的上下文。不是让 agent 自己评自己——这种自评几乎是必然过关的——而是用一个干净的脑子来挑刺,避免 agent 反推标准的偏差。

效果数据说话:Anthropic 内部测试,加上 Outcomes 比标准 prompt loop 的任务成功率最高高出 10 个百分点,越难的任务提升越大。文件生成场景里,docx 质量提升 8.4%,pptx 质量提升 10.1%。

10 个点的差距在 benchmark 上是个什么概念?大概等于少跑一代模型的提升幅度。靠改进协作机制就拿到了。

Outcomes 现在是 public beta。

多 agent 编排:从单兵到团队

第三个东西叫 Multi-agent Orchestration,相对没那么颠覆,但落地价值很硬。

简单说,就是允许一个 lead agent 派活给若干 specialist agent,每个 specialist 可以用不同的模型、不同的 prompt、不同的工具集,并行干活。所有进度在 Claude Console 里全程可追溯。

Anthropic 给的官方 example 是这样的:一个故障调查的 lead agent,同时派四个子 agent 去查——一个翻部署历史、一个看 error log、一个拉 metrics、一个搜 support ticket。四个并行跑完,lead agent 把结果合起来给结论。

这套架构跟 Anthropic 自己内部用的 Code Review 系统是同一个思路(多个 reviewer 并行、单独 verifier 把关)。现在他们把它打包成产品给客户用。

为什么这一套加起来很危险

把这三件事拉远了看:Dreaming 让 agent 能跨任务自我进化,Outcomes 让 agent 能自我验收,Multi-agent Orchestration 让 agent 能调度同伴。

这是一个完整的自学闭环:干活、被评、复盘、更新、再干活。中间不需要人工介入。

这就是为什么 Code with Claude SF 这次没发新模型,但你能听出 Anthropic 的野心比单纯 Opus 4.8 大得多。

模型的 benchmark 提升正在变难,每代模型 5%-10% 的提升越来越费劲。但 agent 的工作能力提升不止依赖模型,还能靠协作机制经验沉淀。Dreaming 这种”间隙学习”如果在生产环境跑顺,意味着 Anthropic 找到了一条不必硬扛 scaling law 的提速路线。

当然,risk 也不小。一个 agent 会自动写自己的记忆,意味着错误的总结也可能被固化。Anthropic 给了人工 review 选项,但企业用户敢不敢真的全自动放开,这事得跑半年看数据。

至于 Dreaming 是不是会变成下一代 agent 的标配——大概率是。OpenAI 的 Memory、Google 的 Personal Context 已经在做”个性化记忆”,但 Anthropic 把它从用户偏好这个层面抽象到了agent 工作能力这个层面。这个抽象一旦立住,竞品大概都得跟。

至于 Code with Claude SF 还有什么——Mercado Libre 23000 个工程师定下了 Q3 2026 之前 90% 代码自主化的 KPI;Claude Code 五小时 limit 直接翻倍;API 调用量同比涨了 17 倍。

但最值得关注的不是这些数字,是Agent 开始学会自己变好

参考来源:Anthropic is letting Claude agents 'dream' so they don't sleep on the job(SiliconANGLE);New in Claude Managed Agents: dreaming, outcomes, and multiagent orchestration(SD Times);Live blog: Code w/ Claude 2026(Simon Willison)