Anthropic 发布 Opus 4.8 漏判率砍四分之三 - News

模型越做越强这件事，大家早就看麻了。所以这次 Anthropic 给 Opus 4.8 划的重点有点反常——不是”更聪明”,是”更诚实”。

5 月 28 日，Anthropic 把 Claude Opus 4.8 放了出来，API 上直接能调，模型名就叫 claude-opus-4-8。价格一分没涨，还是每百万 token 输入 5 美元、输出 25 美元，跟上一代 Opus 4.7 持平。

但官方通稿里被反复强调的，是另一组数字。

它开始承认”这段我没把握”了

Anthropic 给的说法是，Opus 4.8 写完代码后，让自己的 bug 蒙混过关的概率，大约只有上一代的四分之一：

“around four times less likely than its predecessor to allow flaws in code it has written to pass unremarked”

讲人话就是——以前 Claude 写完一段代码，里面有问题它经常自己看不出来、也不吭声；现在它揪自己毛病的本事强了四倍，写完会主动说”这里我拿不准”或者”这段可能有坑”。

这事听着比跑分提升小，实际更要命。

用 AI 写代码，最怕的从来不是它写得慢，是它一脸笃定地甩给你一段错的，你还得自己花时间去发现它错在哪。一个会主动举手说”我不确定”的模型，省下的就是这部分的命。

同样的逻辑也延伸到了知识类任务上：Opus 4.8 更愿意标出自己没底的地方，少做没依据的断言。

该有的跑分也都在

诚实归诚实，硬指标 Anthropic 一个没落下：

测试项	成绩
Online-Mind2Web（网页操作）	84%
OSWorld-Verified（桌面操作）	82.3%
Legal Agent Benchmark（法律 agent）	第一个在”全项通过”标准下破 10% 的模型
CursorBench	各 effort 档位全面超过此前 Opus
Finance Agent v2（金融 agent）	压过 Opus 4.7

法律那条值得多看一眼。“全项通过”意味着一个任务里每一步都不能错，10% 这个绝对值看着不高，可在这之前没有模型迈过这道坎——这类活的容错率本来就接近于零。

顺手把 fast mode 的价格砍了

这次还动了 fast mode（快速模式）。

Opus 4.8 的 fast mode 跑起来是 2.5 倍速度，价格是每百万 token 输入 10 美元、输出 50 美元——Anthropic 说这比之前几代的 fast mode 便宜了三倍。

也就是说，以前想要快得多掏不少钱，现在这个溢价被压下来了。

配套还放了两样东西：

Dynamic workflows（研究预览版）：在 Claude Code 里能一口气拉起几百个并行子 agent 一起干活
effort 滑杆：在 claude.ai 和 Cowork 里直接拖，自己定质量和速度怎么取舍

几百个子 agent 并行这条，跟前面那个”会自己挑错”凑在一起看，指向的是同一件事——让一堆 Claude 互相盯着干活，而不是一个 Claude 单打独斗。

真正的大招还压着

通稿结尾甩了个钩子：Mythos。

这个更猛的型号眼下只开给少数几家做网络安全的机构用，没对外放。Anthropic 给的理由是得先把网络安全那块的防护做扎实，正式版”接下来几周”会来。

这套路 Anthropic 玩过不止一回了——先放一个稳当的旗舰，把更狠的那个吊在后头，理由永远是”安全还没准备好”。信不信另说，反正 Mythos 这名字已经在它家通稿里冒出来好几次了。

卡的就是这个点

时间点很难说是巧合。

OpenAI 那边正准备递交保密版 S-1、往上市冲，两家的旗舰之争已经从产品打到了资本市场。Anthropic 偏偏挑这个当口放 Opus 4.8，价格不涨、还顺手降了 fast mode，姿态摆得明明白白：性能我跟得上，性价比我还能再让一让。

至于”诚实”会不会变成下一个被卷的方向，得看 OpenAI 和 Google 接不接这个话茬。

一个会说”我不确定”的模型，听着不性感，但真用起来，可能比多两分跑分更让人睡得着觉。

下一代 Mythos，几周后见。

参考来源：Introducing Claude Opus 4.8（Anthropic）；Anthropic releases new model,CocoLoop、 Opus 4.8（Axios）；Anthropic Debuts Claude Opus 4.8, Teases Upcoming Launch of Mythos-Class Models（Gizmodo）