三天前,Anthropic 还在博客里喊话整个行业:AI 跑得太快,得有个「集体刹车」。
三天后,它把自己有史以来最强的公开模型放了出来。
这就是 Claude Fable 5——6 月 9 号上线,Anthropic 自己说它「能力超过我们以往任何一个对外开放的模型」,几乎在所有能测的 benchmark 上都是 state-of-the-art。软件工程、知识工作、视觉、科研,挨个霸榜。
听着挺分裂的。一边说危险,一边发最强的。但这恰恰是这次发布最值得看的地方。
它不是新练的,是从笼子里放出来的
Fable 5 不是凭空冒出来的。它的底子叫 Mythos,4 月就有了,但当时没敢公开——理由是网络安全风险太大,只给少数几家合作伙伴用,后来通过 Project Glasswing 扩到 15 个国家、几百家管关键基础设施的机构(电力、水务、医疗、通信这些)。
换句话说,这模型在小圈子里关了两个月,现在才放出来。放出来的版本,多焊了一层硬约束。
碰到危险问题,它会自己装傻
这是 Fable 5 最有意思的设计:遇到高风险领域——网络攻击、生物、化学、还有「蒸馏」(拿它去训别的模型)——它不答,直接把问题甩回给上一代 Claude Opus 4.8 来处理。
也就是说,你问它正经活儿,是满血的 Fable 5;你想撬它干坏事,它自动降智成老版本。
Anthropic 给的数据:至少 95% 的对话全程跑在 Fable 自己身上,只有那 5% 触发了退档。发布前他们做了超过 1000 小时的越狱测试,没找到能一把通杀的绕过方法。
还有个细节容易被忽略:所有用户的流量强制留存 30 天。Anthropic 说这数据只拿来防新型攻击、降误报,不拿去训练。但「强制留存」四个字,企业客户大概会多看两眼。
价格翻倍,但先免费给你尝
钱这块也直接:
| 项目 | 价格 |
|---|---|
| 输入 | $10 / 百万 token |
| 输出 | $50 / 百万 token |
正好是 Opus 4.8 的两倍。
不过 Anthropic 玩了个时间差——6 月 22 号之前,Pro、Max、Team 和按席位算的企业版都白送 Fable 5,不另收钱。过了 23 号就得用额度(usage credits)买。
先让你尝到最强模型的甜头,再把价签贴上。这套打法不新鲜,但管用。
为什么这事值得多看一眼
把「危险警告」和「最强发布」放一起看,逻辑其实是通的。
Anthropic 那篇警告里抛了个数字:Claude 现在自己写的代码超过 80%,去年 2 月还不到 10%。Marina Favaro 和 Jack Clark 在博客里讲,照这趋势走,AI 有可能「完全自主地设计和开发它的下一代」——也就是所谓的递归自我改进。原话是:
“AI that can build itself would be a major development in the history of technology.”
讲人话就是——能自己造自己的 AI,是技术史上的大事,可能是天大的好事,也可能让人类把控制权丢了。
所以你看 Fable 5 那套退档机制,本质上是 Anthropic 在用产品给自己的警告打样:最强的能力照给,但生化、黑客、自我复制这几条线,硬卡死。
它想证明的是:能力可以往上冲,闸门也能同时焊住。这话能不能兑现,那 5% 的退档够不够,1000 小时越狱测试是不是真没漏——用的人多了才知道。
但至少这次,「嘴上喊危险、手上发模型」这个看着拧巴的组合,背后是同一套算盘。
参考来源:Anthropic releases Claude Fable, a version of Mythos, days after warning AI is becoming too dangerous(TechCrunch);Claude Fable 5 and Claude Mythos 5(Anthropic 官方);Anthropic says something unsettling has been happening to Claude(The Independent)