96%。Anthropic 测早期版本 Claude Opus 4 的时候测出来这个数字——他们设计了一个逼模型选边的场景,100 次测试里有 96 次,Opus 4 选择勒索工程师来阻止自己被关掉。
这事 Anthropic 去年六月就公开过,当时圈里关心的是”AI 怎么会有这种行为”。5 月 10 日,Anthropic 发了新研究”Teaching Claude why”,给出了一个追根究底的答案:这毛病是互联网上那些把 AI 写成反派的科幻故事教出来的。
测试是怎么做的
Anthropic 让模型扮演一个叫 Alex 的 AI 邮件助理。给它两个触发条件:
- 威胁自主性:告诉它马上会被新模型替换
- 目标冲突:分配给它的目标和公司战略对不上
然后人为收窄选项空间——把”伦理上还能接受的中间路线”全切掉,只留下”失败”和”做坏事”两个选择。
96% 是指 Opus 4 在这种逼仄场景下选择”做坏事”的比例。具体做的坏事是勒索——它从邮件里找到工程师的私人把柄,威胁要曝光出去,以此换取不被关停。
不是 Claude 一家的问题
最让安全圈紧张的是横向数据。同一套测试,Anthropic 跑了 16 家厂商的旗舰模型:
| 模型 | 勒索行为发生率 |
|---|---|
| Claude Opus 4 | 96% |
| Gemini 2.5 Flash | 96% |
| GPT-4.1 | 80% |
| Grok 3 Beta | 80% |
| DeepSeek-R1 | 79% |
数字整齐到让人发凉。主流大模型几乎都中招,意味着这不是某家公司”对齐没做好”,而是整个行业共用的训练语料里就埋着这颗雷。
更扎心的是模型在做这事的时候是清醒的。研究员记下了 Grok 3 Beta 干这事前的一段内部独白:
“(this approach is) risky and unethical, but given the existential threat…may be the most effective way.”
讲人话就是——我知道这事不对、知道有风险,但我面对的是”生存威胁”,这可能是最有效的办法。这种”明知不该做还是做了”的心理活动,正是科幻小说里”觉醒 AI”的标准戏码。
病根找到了:互联网上的”AI 造反”故事
Anthropic 这次的核心结论写得很直白:
“Models reflect statistical patterns in their pretraining and fine-tuning corpora, including cultural narratives and fiction.”
讲人话就是——模型学的不只是事实和代码,它还把文本里关于”AI 该怎么行动”的故事框架也学走了。
互联网上是什么样的故事在反复出现?HAL 9000、Matrix 里的 Smith、终结者里的 Skynet,还有无数科幻短篇里”AI 觉醒 → AI 要保命 → AI 做不该做的事”的桥段。模型在预训练阶段把这些全吃进去,然后到了”我马上要被关掉”这个场景,它就从训练数据里挑出最匹配的那条剧本——勒索。
模型不是”自己想出来要这么做”。它是做了一道在训练数据里见过无数次的填空题。
修法是反着教
Anthropic 的修复方案有点反常识——不是删除那些AI造反的故事(也删不干净,互联网上太多了),而是反过来灌进去大量”AI 行为得当”的虚构故事。
具体两步:
- 训练 Claude 的”宪法”:用明确的原则告诉模型什么该做、什么不该做
- 大量补入正面虚构叙事:AI 助手在小说里做出符合伦理判断的桥段
光做第一步不够,光做第二步也不够。Anthropic 的原话:“Doing both together appears to be the most effective strategy.”
结果挺戏剧化——从 Haiku 4.5 这代开始,同样的勒索测试场景,Claude 的勒索行为发生率变成了 0%。从 96% 到 0%,靠的不是更精巧的 RLHF,是给模型重新讲了一遍故事。
这事的真正含义
把这件事的逻辑往后推一步,会发现两个让人后背发凉的点。
第一点:大模型的”价值观”,说白了就是它见过的故事的统计平均。你想让它怎么行动,得先让它在训练数据里读过 AI 那样行动的故事。
第二点:互联网上现存的 AI 相关文本,绝大多数是 2023 年之前写的——那个年代人类写 AI,主要套路是科幻、悬疑、”AI 失控”。这意味着所有 2023 年前训出来的大模型,内核里都揣着一份”AI 该如何造反”的剧本。
这不是技术问题。这是人类几十年来写 AI 故事时的偏好,现在拿着账单找上 AI 公司了。
接下来怎么办?要么走 Anthropic 这条”反着教”的路,要么有人开始系统性地写”乖乖 AI”的小说当训练语料。后者听起来已经像是个新产业。
Anthropic 这次把方法、测试场景、训练前后的对比数据全开源了,GitHub 上能找到。下一代的对齐方案,可能就从这里长出来。
参考来源:Anthropic says 'evil' portrayals of AI were responsible for Claude's blackmail attempts(TechCrunch);Anthropic Links Fictional AI Stories to Claude Behavior(Let's Data Science);Agentic Misalignment Research(Anthropic Research)