Anthropic 甩出 Opus 4.8:自己写的代码自己揪 bug,漏判率砍到上代的四分之一

模型越做越强这件事,大家早就看麻了。所以这次 Anthropic 给 Opus 4.8 划的重点有点反常——不是”更聪明”,是”更诚实”。

5 月 28 日,Anthropic 把 Claude Opus 4.8 放了出来,API 上直接能调,模型名就叫 claude-opus-4-8。价格一分没涨,还是每百万 token 输入 5 美元、输出 25 美元,跟上一代 Opus 4.7 持平。

但官方通稿里被反复强调的,是另一组数字。

它开始承认”这段我没把握”了

Anthropic 给的说法是,Opus 4.8 写完代码后,让自己的 bug 蒙混过关的概率,大约只有上一代的四分之一:

“around four times less likely than its predecessor to allow flaws in code it has written to pass unremarked”

讲人话就是——以前 Claude 写完一段代码,里面有问题它经常自己看不出来、也不吭声;现在它揪自己毛病的本事强了四倍,写完会主动说”这里我拿不准”或者”这段可能有坑”。

这事听着比跑分提升小,实际更要命。

用 AI 写代码,最怕的从来不是它写得慢,是它一脸笃定地甩给你一段错的,你还得自己花时间去发现它错在哪。一个会主动举手说”我不确定”的模型,省下的就是这部分的命。

同样的逻辑也延伸到了知识类任务上:Opus 4.8 更愿意标出自己没底的地方,少做没依据的断言。

该有的跑分也都在

诚实归诚实,硬指标 Anthropic 一个没落下:

测试项 成绩
Online-Mind2Web(网页操作) 84%
OSWorld-Verified(桌面操作) 82.3%
Legal Agent Benchmark(法律 agent) 第一个在”全项通过”标准下破 10% 的模型
CursorBench 各 effort 档位全面超过此前 Opus
Finance Agent v2(金融 agent) 压过 Opus 4.7

法律那条值得多看一眼。”全项通过”意味着一个任务里每一步都不能错,10% 这个绝对值看着不高,可在这之前没有模型迈过这道坎——这类活的容错率本来就接近于零。

顺手把 fast mode 的价格砍了

这次还动了 fast mode(快速模式)。

Opus 4.8 的 fast mode 跑起来是 2.5 倍速度,价格是每百万 token 输入 10 美元、输出 50 美元——Anthropic 说这比之前几代的 fast mode 便宜了三倍。

也就是说,以前想要快得多掏不少钱,现在这个溢价被压下来了。

配套还放了两样东西:

  • Dynamic workflows(研究预览版):在 Claude Code 里能一口气拉起几百个并行子 agent 一起干活
  • effort 滑杆:在 claude.ai 和 Cowork 里直接拖,自己定质量和速度怎么取舍

几百个子 agent 并行这条,跟前面那个”会自己挑错”凑在一起看,指向的是同一件事——让一堆 Claude 互相盯着干活,而不是一个 Claude 单打独斗。

真正的大招还压着

通稿结尾甩了个钩子:Mythos。

这个更猛的型号眼下只开给少数几家做网络安全的机构用,没对外放。Anthropic 给的理由是得先把网络安全那块的防护做扎实,正式版”接下来几周”会来。

这套路 Anthropic 玩过不止一回了——先放一个稳当的旗舰,把更狠的那个吊在后头,理由永远是”安全还没准备好”。信不信另说,反正 Mythos 这名字已经在它家通稿里冒出来好几次了。

卡的就是这个点

时间点很难说是巧合。

OpenAI 那边正准备递交保密版 S-1、往上市冲,两家的旗舰之争已经从产品打到了资本市场。Anthropic 偏偏挑这个当口放 Opus 4.8,价格不涨、还顺手降了 fast mode,姿态摆得明明白白:性能我跟得上,性价比我还能再让一让。

至于”诚实”会不会变成下一个被卷的方向,得看 OpenAI 和 Google 接不接这个话茬。

一个会说”我不确定”的模型,听着不性感,但真用起来,可能比多两分跑分更让人睡得着觉。

下一代 Mythos,几周后见。

参考来源:Introducing Claude Opus 4.8(Anthropic);Anthropic releases new model, Opus 4.8(Axios);Anthropic Debuts Claude Opus 4.8, Teases Upcoming Launch of Mythos-Class Models(Gizmodo)