Anthropic公开复盘:三月以来让Claude越来越差的,是他们自己犯的三个错

昨天(4月23日),Anthropic做了一件少见的事:公开承认了错误。

不是公关措辞含糊带过,是列出了三个具体的技术决定——哪天改的、改了什么、为什么改、造成了什么后果、哪天修回来的。

从3月初到4月中,这三个改动叠加在一起,让Claude Code在用户眼里越来越蠢。很多人以为是模型退化,其实是三个可以定位到具体时间点的决定。

第一个错:偷偷把Claude调成了省力模式

时间:3月4日

Claude Code的默认推理深度,从 high(高)改成了 medium(中)。理由是降低延迟,让响应更快。

结果是用户明显感觉Claude Code变笨了。提问一样,输出质量下滑。

Anthropic的结论:「这是错误的权衡。我们在4月7日回滚了这个改动,因为用户告诉我们,他们更希望默认是高智能,需要的时候才主动选低延迟。」

这件事三月中就有大量用户在报告,当时Anthropic没有公开说明原因。这次才正式承认:不是Bug,是一个主动做的错误决定。

出问题到修好:超过一个月

第二个错:缓存优化引入了健忘Bug

时间:3月26日

工程团队在做缓存优化时,引入了一个Bug:

正常逻辑——思维会话缓存在用户一段时间不操作后才清除。Bug出现后,变成了每次用户发消息都清除一次

结果是Claude在对话里变得健忘且重复。刚说过的事,下一条消息就忘了。用户以为是智能退化,实际上是内存在漏。

Anthropic的话:「这不是用户在使用Claude Code时应该经历的体验。」

修复时间:4月10日。

出问题到修好:15天

第三个错:加了字数限制,性能掉了3%

时间:4月16日

Anthropic修改系统提示词,加入了两个上限:

  • 工具调用之间:最多25个词
  • 最终回答:最多100个词

目的是让Claude更简洁。结果内部测试发现性能下降了3%

4月20日,这个改动被回滚了。

出问题到修好:4天——比第二个Bug快很多,原因是这次至少有内部测试数据撑着。

三个错误叠在一起

时间线拉出来看:

改动时间 具体内容 修复时间
3月4日 推理深度 high → medium 4月7日(>1个月)
3月26日 缓存Bug,每次清空 4月10日(15天)
4月16日 系统提示词字数限制 4月20日(4天)

用户的感受是:Claude一直在变差,但说不清楚是哪里不对。

因为这三个问题同时在起作用。用户报告的症状混杂在一起,Anthropic自己定位也需要时间。

公开复盘之后

Anthropic的承诺是三件事:改进测试流程、有变化提前告知用户、重置受影响账号的使用额度。

承认错误这件事本身,在AI行业里算少见。愿意拿着具体时间节点和数字出来讲,不绕弯子,比大多数公司做得好。

但有一个细节值得注意:第三个Bug,是Anthropic做了内部测试之后才发布的——然后还是发现3%性能下降才回滚。测试流程本身也没拦住。

这不是Anthropic独有的问题。快速迭代的代价是什么?每次发布都在赌出错概率,用户对「AI变差了」的感知会积累,而且很难被立刻归因。

一份公开复盘不能解决这个张力,但至少是正视它的开始。

接下来的问题是:新承诺的测试流程能不能真的拦住下一个类似的改动?答案要等下一次出问题的时候才知道。

参考来源:Anthropic admits it dumbed down Claude with upgrades(The Register,2026年4月23日);AI Dispatch: Daily Trends and Innovations – April 23, 2026(Hipther,2026年4月23日)