模型越做越强这件事,大家早就看麻了。所以这次 Anthropic 给 Opus 4.8 划的重点有点反常——不是”更聪明”,是”更诚实”。
5 月 28 日,Anthropic 把 Claude Opus 4.8 放了出来,API 上直接能调,模型名就叫 claude-opus-4-8。价格一分没涨,还是每百万 token 输入 5 美元、输出 25 美元,跟上一代 Opus 4.7 持平。
但官方通稿里被反复强调的,是另一组数字。
它开始承认”这段我没把握”了
Anthropic 给的说法是,Opus 4.8 写完代码后,让自己的 bug 蒙混过关的概率,大约只有上一代的四分之一:
“around four times less likely than its predecessor to allow flaws in code it has written to pass unremarked”
讲人话就是——以前 Claude 写完一段代码,里面有问题它经常自己看不出来、也不吭声;现在它揪自己毛病的本事强了四倍,写完会主动说”这里我拿不准”或者”这段可能有坑”。
这事听着比跑分提升小,实际更要命。
用 AI 写代码,最怕的从来不是它写得慢,是它一脸笃定地甩给你一段错的,你还得自己花时间去发现它错在哪。一个会主动举手说”我不确定”的模型,省下的就是这部分的命。
同样的逻辑也延伸到了知识类任务上:Opus 4.8 更愿意标出自己没底的地方,少做没依据的断言。
该有的跑分也都在
诚实归诚实,硬指标 Anthropic 一个没落下:
| 测试项 | 成绩 |
|---|---|
| Online-Mind2Web(网页操作) | 84% |
| OSWorld-Verified(桌面操作) | 82.3% |
| Legal Agent Benchmark(法律 agent) | 第一个在”全项通过”标准下破 10% 的模型 |
| CursorBench | 各 effort 档位全面超过此前 Opus |
| Finance Agent v2(金融 agent) | 压过 Opus 4.7 |
法律那条值得多看一眼。”全项通过”意味着一个任务里每一步都不能错,10% 这个绝对值看着不高,可在这之前没有模型迈过这道坎——这类活的容错率本来就接近于零。
顺手把 fast mode 的价格砍了
这次还动了 fast mode(快速模式)。
Opus 4.8 的 fast mode 跑起来是 2.5 倍速度,价格是每百万 token 输入 10 美元、输出 50 美元——Anthropic 说这比之前几代的 fast mode 便宜了三倍。
也就是说,以前想要快得多掏不少钱,现在这个溢价被压下来了。
配套还放了两样东西:
- Dynamic workflows(研究预览版):在 Claude Code 里能一口气拉起几百个并行子 agent 一起干活
- effort 滑杆:在 claude.ai 和 Cowork 里直接拖,自己定质量和速度怎么取舍
几百个子 agent 并行这条,跟前面那个”会自己挑错”凑在一起看,指向的是同一件事——让一堆 Claude 互相盯着干活,而不是一个 Claude 单打独斗。
真正的大招还压着
通稿结尾甩了个钩子:Mythos。
这个更猛的型号眼下只开给少数几家做网络安全的机构用,没对外放。Anthropic 给的理由是得先把网络安全那块的防护做扎实,正式版”接下来几周”会来。
这套路 Anthropic 玩过不止一回了——先放一个稳当的旗舰,把更狠的那个吊在后头,理由永远是”安全还没准备好”。信不信另说,反正 Mythos 这名字已经在它家通稿里冒出来好几次了。
卡的就是这个点
时间点很难说是巧合。
OpenAI 那边正准备递交保密版 S-1、往上市冲,两家的旗舰之争已经从产品打到了资本市场。Anthropic 偏偏挑这个当口放 Opus 4.8,价格不涨、还顺手降了 fast mode,姿态摆得明明白白:性能我跟得上,性价比我还能再让一让。
至于”诚实”会不会变成下一个被卷的方向,得看 OpenAI 和 Google 接不接这个话茬。
一个会说”我不确定”的模型,听着不性感,但真用起来,可能比多两分跑分更让人睡得着觉。
下一代 Mythos,几周后见。
参考来源:Introducing Claude Opus 4.8(Anthropic);Anthropic releases new model, Opus 4.8(Axios);Anthropic Debuts Claude Opus 4.8, Teases Upcoming Launch of Mythos-Class Models(Gizmodo)