Anthropic 给 Claude 装最多 20 个子 Agent - News

旧金山时间5月6日的Code with Claude SF开场，Anthropic没花多少时间介绍框架，直接把Managed Agents的三个新功能扔了出来：Dreaming（在研究预览）、Outcomes（公测）、Multiagent Orchestration（公测）。Dreaming那个Claude会做梦的事，前两天已经聊过了。今天的主角是另外一个：多智能体编排。

简单讲，就是Claude Agent现在能开分身了。一个领头的agent接到复杂任务，自己拆成几块，丢给若干个专精的子agent去并行干。每个子agent有自己的模型、自己的prompt、自己的工具集。

听上去像把研发外包，但有几个数字值得拎出来看。

20个agent，25条线程，跑在同一个文件系统上

官方限制写得很具体：最多20个不同agent，最多25条线程同时跑。这不是个开玩笑的小demo——这是给企业生产环境定的容量。

它的设计也很具体：所有子agent共享同一个文件系统，事件持久化，领头agent可以中途回头找之前那个子agent继续接着干。听起来像是把传统多线程编程那套并发模型，搬进了AI agent的世界里。

举个Anthropic自己给出的例子：

一个领头agent接到”调查这次故障”的任务，子agent们分头去翻部署历史、错误日志、监控指标、客服工单——四条线并行往前推，最后所有发现都汇总回领头agent的上下文里。

这个场景里，原本一个agent要按顺序读完几百份日志才能给出结论的事，现在20个分身一起上，理论上能砍掉一个数量级的耗时。

Netflix平台团队已经在用了

这次Anthropic罕见地放出了具体客户场景，不是泛泛地说”某金融机构”那种话术。

Netflix平台团队用multiagent orchestration做了个分析agent，处理”几百个build”的日志，专门用来发现各个应用里反复出现的同类问题。这是一个很典型的”批量但每件事都要细看”的活——传统脚本搞不定，单个agent又跑得太慢，正好是多智能体编排的甜区。

Harvey（法律AI那家）用Dreaming记住了文档处理过程中的各种tool调用patterns和文件类型坑，完成率提高了大概6倍。注意，这里的6倍不是泛泛说”显著提升”，是legal文档协调的具体数字。

Spiral的用法更精明：用Haiku接初步请求（便宜快），用Opus写正式稿（贵但好），中间用Outcomes把编辑标准强制执行。一套组合拳下来，模型成本和质量都能拿捏住。

Wisedocs的文档质量检查环节，速度提升50%，同时通过outcome评分维持团队标准的一致性。

这几个客户场景有个共同点：都是把多agent协作当工程问题在解，不是当研究课题。说白了，企业不在乎你叫不叫multiagent orchestration，在乎的是上线后能不能跑稳、能不能省钱、能不能让人少加班。

Outcomes才是隐藏的杀手锏

Multiagent的故事很好讲，但仔细看Anthropic的发布数据，Outcomes才是把”AI做不靠谱的事”这个老问题真正啃下去的工具。

它的设计很直接：开发者写一份成功标准的rubric，然后另一个独立的grader在隔离上下文里给agent的输出打分。打分这位仁兄看不到agent是怎么推理的，只看结果。如果不及格，反馈回去让agent重写。默认重试3次，最多20次。

效果呢？官方测试数据：

任务类型	性能提升
docx文件生成	+8.4%
pptx文件生成	+10.1%

10个百分点这种提升，对已经在生产线上的任务来说是非常可观的——尤其是这些任务原本的成功率本来就不低（不是从30%到40%，是从某个高基线再往上爬）。

更关键的是这套机制本身。把”评估”这件事和”生成”彻底解耦——以前我们做RLHF、做self-critique，都是让同一个模型既当运动员又当裁判，结果模型经常自己说服自己”这次差不多了”。Outcomes把裁判换成了不知道运动员怎么想的另一个agent，等于把那种自我安慰的循环砍断了。

这事的真正意义

如果只看一周的发布节奏，你会觉得Anthropic是在堆功能。但拼起来看就清楚了：

Dreaming 解决memory积累
Outcomes 解决质量保证
Multiagent Orchestration 解决复杂任务拆解

三件事拼起来，描述的是一个”agent真的能在企业里独立跑活、不用人盯着”的产品形态。这跟ChatGPT那种”问一句答一句”的交互模型，已经不在一个层次了。

Anthropic在Code with Claude上反复说的一个词是”agentic by default”。从产品决策到定价（看看华尔街那批agent订阅模式就知道），公司整个战略都在往这个方向押。

至于这套东西能不能在真正大规模的企业部署里站住脚？Harvey的6倍、Wisedocs的50%、Netflix那几百个build——这些数字之外，还有海量的细节问题（错误恢复、成本控制、安全边界）等着在接下来几个月被市场考验。

但有一件事现在已经能下结论：单个聊天框时代，结束了。

参考来源：New in Claude Managed Agents: dreaming, outcomes, and multiagent orchestration（Claude Blog）；Anthropic updates Claude Managed Agents with three new features（9to5Mac）；CocoLoop、Claude's new "Dreaming" feature is designed to let AI agents learn from their mistakes（The Decoder）；Anthropic just taught Claude to dream between tasks, and it makes agents meaningfully smarter（Digital Trends）