Claude会做梦了：Anthropic在Code with Claude上扔出来的，是Agent的自学循环 - News

不是营销词，是真功能。

Anthropic 在 5 月 6 日 Code with Claude SF 现场宣布，Claude Managed Agents 加了一个叫 Dreaming 的能力——agent 干完活之后，会在”睡觉”的时候自己回看历史会话，把那些当时没意识到的模式提炼成长期记忆，下次再遇到类似的活，行为就跟着改了。

这事翻译成人话：以前 AI agent 干完一个任务就把脑子格式化了，下次再来一个新任务又从零开始；现在 agent 之间的”间隙时间”不再浪费，它会自己反思、自己总结、自己更新自己的记忆库。

听起来是不是很像人类下班之后躺床上复盘？Anthropic 自己用的就是这个比喻。

Dreaming 到底在做什么

技术上讲，Dreaming 是一个定时调度的进程，不是 agent 工作时顺手干的事。它会在 agent 的空闲时段被触发，遍历过去的会话和现有的记忆库，干三件事：

找出重复犯的错——比如某个 agent 一周内在同一类 SQL 查询上栽了五次，单次会话里它意识不到，跨会话一对比就明显了
找出收敛出来的工作流——多次成功完成同类任务时走过的有效路径
找出团队层面的偏好——多个 agent 共享的命名规范、代码风格、汇报格式

提炼完之后，记忆系统不是简单堆叠，而是被重新结构化。Anthropic 在博客里强调的一句原话是：”Memory lets each agent capture what it learns as it works. Dreaming refines that memory between sessions.”

工作中学，工作后再消化——分两层。这才是它跟传统 RAG 或者 context window 那套机制的本质区别。

开发者对 Dreaming 的更新有两种控制方式：要么放手让它自动写进记忆，要么每次新发现都要人工 review 才生效。前者是无人值守的agent场景，后者更适合企业里需要审计的工作流。

目前 Dreaming 在 research preview 阶段。

Outcomes：把验收标准也交给 AI

跟 Dreaming 同时发布的还有一个 Outcomes 功能，干的是另一件事——帮 agent 自己判断”这活干得行不行”。

具体怎么玩：开发者写一份 rubric（评分标准），描述什么叫成功。然后系统会单独跑一个 grader（评分员）agent，在自己的独立上下文里去打分。打分员发现不达标，会指出具体问题，原 agent 再来一遍。

关键点在于 grader 是单独的上下文。不是让 agent 自己评自己——这种自评几乎是必然过关的——而是用一个干净的脑子来挑刺，避免 agent 反推标准的偏差。

效果数据说话：Anthropic 内部测试，加上 Outcomes 比标准 prompt loop 的任务成功率最高高出 10 个百分点，越难的任务提升越大。文件生成场景里，docx 质量提升 8.4%，pptx 质量提升 10.1%。

10 个点的差距在 benchmark 上是个什么概念？大概等于少跑一代模型的提升幅度。靠改进协作机制就拿到了。

Outcomes 现在是 public beta。

多 agent 编排：从单兵到团队

第三个东西叫 Multi-agent Orchestration，相对没那么颠覆，但落地价值很硬。

简单说，就是允许一个 lead agent 派活给若干 specialist agent，每个 specialist 可以用不同的模型、不同的 prompt、不同的工具集，并行干活。所有进度在 Claude Console 里全程可追溯。

Anthropic 给的官方 example 是这样的：一个故障调查的 lead agent，同时派四个子 agent 去查——一个翻部署历史、一个看 error log、一个拉 metrics、一个搜 support ticket。四个并行跑完，lead agent 把结果合起来给结论。

这套架构跟 Anthropic 自己内部用的 Code Review 系统是同一个思路（多个 reviewer 并行、单独 verifier 把关）。现在他们把它打包成产品给客户用。

为什么这一套加起来很危险

把这三件事拉远了看：Dreaming 让 agent 能跨任务自我进化，Outcomes 让 agent 能自我验收，Multi-agent Orchestration 让 agent 能调度同伴。

这是一个完整的自学闭环：干活、被评、复盘、更新、再干活。中间不需要人工介入。

这就是为什么 Code with Claude SF 这次没发新模型，但你能听出 Anthropic 的野心比单纯 Opus 4.8 大得多。

模型的 benchmark 提升正在变难，每代模型 5%-10% 的提升越来越费劲。但 agent 的工作能力提升不止依赖模型，还能靠协作机制和经验沉淀。Dreaming 这种”间隙学习”如果在生产环境跑顺，意味着 Anthropic 找到了一条不必硬扛 scaling law 的提速路线。

当然，risk 也不小。一个 agent 会自动写自己的记忆，意味着错误的总结也可能被固化。Anthropic 给了人工 review 选项，但企业用户敢不敢真的全自动放开，这事得跑半年看数据。

至于 Dreaming 是不是会变成下一代 agent 的标配——大概率是。OpenAI 的 Memory、Google 的 Personal Context 已经在做”个性化记忆”，但 Anthropic 把它从用户偏好这个层面抽象到了agent 工作能力这个层面。这个抽象一旦立住，竞品大概都得跟。

至于 Code with Claude SF 还有什么——Mercado Libre 23000 个工程师定下了 Q3 2026 之前 90% 代码自主化的 KPI；Claude Code 五小时 limit 直接翻倍；API 调用量同比涨了 17 倍。

但最值得关注的不是这些数字，是Agent 开始学会自己变好。

参考来源：Anthropic is letting Claude agents 'dream' so they don't sleep on the job（SiliconANGLE）；New in Claude Managed Agents: dreaming, outcomes, and multiagent orchestration（SD Times）；Live blog: Code w/ Claude 2026（Simon Willison）