Anthropic给Claude Agent装了个团队:一个领头的、最多20个手下,Harvey拿它把任务完成率干到6倍

旧金山时间5月6日的Code with Claude SF开场,Anthropic没花多少时间介绍框架,直接把Managed Agents的三个新功能扔了出来:Dreaming(在研究预览)、Outcomes(公测)、Multiagent Orchestration(公测)。Dreaming那个Claude会做梦的事,前两天已经聊过了。今天的主角是另外一个:多智能体编排

简单讲,就是Claude Agent现在能开分身了。一个领头的agent接到复杂任务,自己拆成几块,丢给若干个专精的子agent去并行干。每个子agent有自己的模型、自己的prompt、自己的工具集。

听上去像把研发外包,但有几个数字值得拎出来看。

20个agent,25条线程,跑在同一个文件系统上

官方限制写得很具体:最多20个不同agent,最多25条线程同时跑。这不是个开玩笑的小demo——这是给企业生产环境定的容量。

它的设计也很具体:所有子agent共享同一个文件系统,事件持久化,领头agent可以中途回头找之前那个子agent继续接着干。听起来像是把传统多线程编程那套并发模型,搬进了AI agent的世界里。

举个Anthropic自己给出的例子:

一个领头agent接到”调查这次故障”的任务,子agent们分头去翻部署历史、错误日志、监控指标、客服工单——四条线并行往前推,最后所有发现都汇总回领头agent的上下文里。

这个场景里,原本一个agent要按顺序读完几百份日志才能给出结论的事,现在20个分身一起上,理论上能砍掉一个数量级的耗时。

Netflix平台团队已经在用了

这次Anthropic罕见地放出了具体客户场景,不是泛泛地说”某金融机构”那种话术。

Netflix平台团队用multiagent orchestration做了个分析agent,处理”几百个build”的日志,专门用来发现各个应用里反复出现的同类问题。这是一个很典型的”批量但每件事都要细看”的活——传统脚本搞不定,单个agent又跑得太慢,正好是多智能体编排的甜区。

Harvey(法律AI那家)用Dreaming记住了文档处理过程中的各种tool调用patterns和文件类型坑,完成率提高了大概6倍。注意,这里的6倍不是泛泛说”显著提升”,是legal文档协调的具体数字。

Spiral的用法更精明:用Haiku接初步请求(便宜快),用Opus写正式稿(贵但好),中间用Outcomes把编辑标准强制执行。一套组合拳下来,模型成本和质量都能拿捏住。

Wisedocs的文档质量检查环节,速度提升50%,同时通过outcome评分维持团队标准的一致性。

这几个客户场景有个共同点:都是把多agent协作当工程问题在解,不是当研究课题。说白了,企业不在乎你叫不叫multiagent orchestration,在乎的是上线后能不能跑稳、能不能省钱、能不能让人少加班。

Outcomes才是隐藏的杀手锏

Multiagent的故事很好讲,但仔细看Anthropic的发布数据,Outcomes才是把”AI做不靠谱的事”这个老问题真正啃下去的工具。

它的设计很直接:开发者写一份成功标准的rubric,然后另一个独立的grader在隔离上下文里给agent的输出打分。打分这位仁兄看不到agent是怎么推理的,只看结果。如果不及格,反馈回去让agent重写。默认重试3次,最多20次。

效果呢?官方测试数据:

任务类型 性能提升
docx文件生成 +8.4%
pptx文件生成 +10.1%

10个百分点这种提升,对已经在生产线上的任务来说是非常可观的——尤其是这些任务原本的成功率本来就不低(不是从30%到40%,是从某个高基线再往上爬)。

更关键的是这套机制本身。把”评估”这件事和”生成”彻底解耦——以前我们做RLHF、做self-critique,都是让同一个模型既当运动员又当裁判,结果模型经常自己说服自己”这次差不多了”。Outcomes把裁判换成了不知道运动员怎么想的另一个agent,等于把那种自我安慰的循环砍断了。

这事的真正意义

如果只看一周的发布节奏,你会觉得Anthropic是在堆功能。但拼起来看就清楚了:

  • Dreaming 解决memory积累
  • Outcomes 解决质量保证
  • Multiagent Orchestration 解决复杂任务拆解

三件事拼起来,描述的是一个”agent真的能在企业里独立跑活、不用人盯着”的产品形态。这跟ChatGPT那种”问一句答一句”的交互模型,已经不在一个层次了。

Anthropic在Code with Claude上反复说的一个词是”agentic by default”。从产品决策到定价(看看华尔街那批agent订阅模式就知道),公司整个战略都在往这个方向押。

至于这套东西能不能在真正大规模的企业部署里站住脚?Harvey的6倍、Wisedocs的50%、Netflix那几百个build——这些数字之外,还有海量的细节问题(错误恢复、成本控制、安全边界)等着在接下来几个月被市场考验。

但有一件事现在已经能下结论:单个聊天框时代,结束了

参考来源:New in Claude Managed Agents: dreaming, outcomes, and multiagent orchestration(Claude Blog);Anthropic updates Claude Managed Agents with three new features(9to5Mac);Claude's new "Dreaming" feature is designed to let AI agents learn from their mistakes(The Decoder);Anthropic just taught Claude to dream between tasks, and it makes agents meaningfully smarter(Digital Trends)