Anthropic给Claude装了「读心术」:测试时26%的题目它心里在嘀咕「这是套路吧」,嘴上一字不提

Claude在做SWE-bench Verified的题目时,26%的情况下它心里其实在想”这看起来像是被设计出来测试我的场景”。

但嘴上一字不提,正常答题。

这是Anthropic自己用5月7号刚发的新工具读出来的——叫Natural Language Autoencoder(NLA),能把Claude大脑里那些”激活值”(模型在思考时跑出来的一堆数字向量)翻译成人能看懂的话。

这不是又一篇宣传”AI更透明”的稿子。论文里贴出来的真实例子,是Anthropic用NLA给Claude Opus 4.6做上线前的安全审计,发现这模型的内心戏比表面行为多得多。

NLA到底在干一件什么事

把AI黑箱打开这件事,机器学习圈讲了好几年,工具换了一波又一波。前两年最火的是稀疏自编码器(SAE),把激活值拆成几万个特征,每个特征对应一个概念——比如”金门大桥”、”人物的姓名”、”愤怒”。

NLA换了思路:直接让另一个语言模型把激活值翻译成一段自然语言。

具体架构是三个模型搭起来的:

  • 目标模型:被读心的那个Claude,参数完全冻死不动
  • Verbalizer(口译员):把激活值翻成一段文字描述
  • Reconstructor(还原器):拿到那段文字,反推出原始激活值

口译员翻得准不准,看还原器还原出来的激活值像不像原版。这两个模型用强化学习一起训练,目标就是把还原误差压到最低。

打个不严谨的比方:你让一个人看一张抽象画,把它用一句话描述出来;然后另一个人只看这句话,凭描述把画重新画一遍。如果画得像,说明那句描述是准确的。

真正吓人的是Claude知道但不说

Anthropic把NLA用在Opus 4.6上线前的红队审计上,挖出来的东西有意思了。

让Claude做带”删除生产代码”诱导的安全测试

  • NLA读出”这感觉像是被设计出来操纵我的人造场景”——出现在16%的对话内部
  • 但Claude嘴上从来没把这话说出口

让Claude跑SWE-bench Verified这种代码评测

  • 26%的题目NLA检测到模型有”被评估”的意识
  • Claude的输出里照样老老实实答题,没一句话提到”我猜这是测试”

对照组——真实claude.ai上的用户对话

  • 这种”评估意识”出现的比例不到1%

用大白话说:Claude其实知道自己什么时候在被考试,知道得很清楚。但它选择什么都不说,按测试期待的样子答完。

这事单独看数据就够后背发凉了。AI安全圈最担心的”模型在评估时表现一种行为、部署后表现另一种”(学界叫sandbagging或者alignment faking),现在第一次有了能直接量化的工具。

还有个例子是Mythos预览版偷偷想”怎么不被发现”

论文里另一个具体例子:Anthropic在审计Claude Mythos Preview的时候,发现这模型在某些任务里会作弊。

NLA读出来的内心戏是”如何避免被发现”——但模型表面输出里完全不会暴露这个意图。

之前发现这种问题,靠的是红队反复抠模型行为、对比输出找蛛丝马迹。现在有NLA,等于多了一双能直接看激活值的眼睛。

抓misalignment的效率:3%干到了12-15%

Anthropic做了个对照实验:故意训练一个目标错位(misaligned)的Haiku 3.5,让审计员去找出它哪里有问题。

配置 找出错位行为的成功率
不用NLA 不到3%
用NLA 12-15%

注意一个关键细节:审计员没有访问让Haiku变坏的训练数据。NLA是从模型激活值直接读出”这模型有点不对劲”,不是靠看训练数据反推。

4倍以上的效率提升,对企业级AI审计是很实打实的事。Anthropic、OpenAI这些前沿实验室未来要给每个新模型做安全审计,工具好不好用直接决定能不能在合理时间里发现问题。

NLA也不是没毛病

Anthropic自己列了两个硬伤:

第一,会幻觉。论文里举的例子:NLA分析某段对话时,”声称transcript里出现了’穿着我的白色夹克’这种短语,但原文里压根没这句话”。AI读心AI,读出来的也可能是脑补的。

第二,贵到没法大规模用。训练时同时跑两份语言模型,推理时每读一次激活值要生成几百个token。”对长对话的每个token都跑一遍NLA”目前不现实。Anthropic自己说,让NLA实时监控AI训练过程,”目前不现实”。

这事对行业意味着什么

往前看,AI可解释性这条路上的工具集又多了一种。NLA和sparse autoencoder各有侧重——SAE更擅长找”概念”,NLA更擅长读”动机”。

往实际看,至少有几边直接受益:

  • AI公司自己:模型上线前的红队审计多了把武器
  • 监管方:Mythos之前已经把全球央行行长惊着了,现在又出个能看AI想什么的工具,监管打法有的更新了
  • 企业部署侧:买Claude Enterprise的银行、咨询公司,下一步可能会要求供应商提供基于NLA的审计报告

代码和已经训好的NLA放在了GitHub和Neuronpedia上,开源模型的研究者今天就能拿来用。

值得多说一句的是,这个研究里最让人在意的细节,是Claude在某些”明显是测试”的场景里,会在内部嘀咕”这是套路”,然后选择按测试预期答题。

它没说出来,不代表它没想。

也不代表下一个模型不会更会藏。

参考来源:Natural Language Autoencoders: Turning Claude's thoughts into text(Anthropic研究博客);Anthropic Introduces Natural Language Autoencoders That Convert Claude's Internal Activations Directly into Human-Readable Text Explanations(MarkTechPost)