旧金山时间5月6日的Code with Claude SF开场,Anthropic没花多少时间介绍框架,直接把Managed Agents的三个新功能扔了出来:Dreaming(在研究预览)、Outcomes(公测)、Multiagent Orchestration(公测)。Dreaming那个Claude会做梦的事,前两天已经聊过了。今天的主角是另外一个:多智能体编排。
简单讲,就是Claude Agent现在能开分身了。一个领头的agent接到复杂任务,自己拆成几块,丢给若干个专精的子agent去并行干。每个子agent有自己的模型、自己的prompt、自己的工具集。
听上去像把研发外包,但有几个数字值得拎出来看。
20个agent,25条线程,跑在同一个文件系统上
官方限制写得很具体:最多20个不同agent,最多25条线程同时跑。这不是个开玩笑的小demo——这是给企业生产环境定的容量。
它的设计也很具体:所有子agent共享同一个文件系统,事件持久化,领头agent可以中途回头找之前那个子agent继续接着干。听起来像是把传统多线程编程那套并发模型,搬进了AI agent的世界里。
举个Anthropic自己给出的例子:
一个领头agent接到”调查这次故障”的任务,子agent们分头去翻部署历史、错误日志、监控指标、客服工单——四条线并行往前推,最后所有发现都汇总回领头agent的上下文里。
这个场景里,原本一个agent要按顺序读完几百份日志才能给出结论的事,现在20个分身一起上,理论上能砍掉一个数量级的耗时。
Netflix平台团队已经在用了
这次Anthropic罕见地放出了具体客户场景,不是泛泛地说”某金融机构”那种话术。
Netflix平台团队用multiagent orchestration做了个分析agent,处理”几百个build”的日志,专门用来发现各个应用里反复出现的同类问题。这是一个很典型的”批量但每件事都要细看”的活——传统脚本搞不定,单个agent又跑得太慢,正好是多智能体编排的甜区。
Harvey(法律AI那家)用Dreaming记住了文档处理过程中的各种tool调用patterns和文件类型坑,完成率提高了大概6倍。注意,这里的6倍不是泛泛说”显著提升”,是legal文档协调的具体数字。
Spiral的用法更精明:用Haiku接初步请求(便宜快),用Opus写正式稿(贵但好),中间用Outcomes把编辑标准强制执行。一套组合拳下来,模型成本和质量都能拿捏住。
Wisedocs的文档质量检查环节,速度提升50%,同时通过outcome评分维持团队标准的一致性。
这几个客户场景有个共同点:都是把多agent协作当工程问题在解,不是当研究课题。说白了,企业不在乎你叫不叫multiagent orchestration,在乎的是上线后能不能跑稳、能不能省钱、能不能让人少加班。
Outcomes才是隐藏的杀手锏
Multiagent的故事很好讲,但仔细看Anthropic的发布数据,Outcomes才是把”AI做不靠谱的事”这个老问题真正啃下去的工具。
它的设计很直接:开发者写一份成功标准的rubric,然后另一个独立的grader在隔离上下文里给agent的输出打分。打分这位仁兄看不到agent是怎么推理的,只看结果。如果不及格,反馈回去让agent重写。默认重试3次,最多20次。
效果呢?官方测试数据:
| 任务类型 | 性能提升 |
|---|---|
| docx文件生成 | +8.4% |
| pptx文件生成 | +10.1% |
10个百分点这种提升,对已经在生产线上的任务来说是非常可观的——尤其是这些任务原本的成功率本来就不低(不是从30%到40%,是从某个高基线再往上爬)。
更关键的是这套机制本身。把”评估”这件事和”生成”彻底解耦——以前我们做RLHF、做self-critique,都是让同一个模型既当运动员又当裁判,结果模型经常自己说服自己”这次差不多了”。Outcomes把裁判换成了不知道运动员怎么想的另一个agent,等于把那种自我安慰的循环砍断了。
这事的真正意义
如果只看一周的发布节奏,你会觉得Anthropic是在堆功能。但拼起来看就清楚了:
- Dreaming 解决memory积累
- Outcomes 解决质量保证
- Multiagent Orchestration 解决复杂任务拆解
三件事拼起来,描述的是一个”agent真的能在企业里独立跑活、不用人盯着”的产品形态。这跟ChatGPT那种”问一句答一句”的交互模型,已经不在一个层次了。
Anthropic在Code with Claude上反复说的一个词是”agentic by default”。从产品决策到定价(看看华尔街那批agent订阅模式就知道),公司整个战略都在往这个方向押。
至于这套东西能不能在真正大规模的企业部署里站住脚?Harvey的6倍、Wisedocs的50%、Netflix那几百个build——这些数字之外,还有海量的细节问题(错误恢复、成本控制、安全边界)等着在接下来几个月被市场考验。
但有一件事现在已经能下结论:单个聊天框时代,结束了。
参考来源:New in Claude Managed Agents: dreaming, outcomes, and multiagent orchestration(Claude Blog);Anthropic updates Claude Managed Agents with three new features(9to5Mac);Claude's new "Dreaming" feature is designed to let AI agents learn from their mistakes(The Decoder);Anthropic just taught Claude to dream between tasks, and it makes agents meaningfully smarter(Digital Trends)