Anthropic给Claude装了「读心术」：测试时26%的题目它心里在嘀咕「这是套路吧」，嘴上一字不提 - News

Claude在做SWE-bench Verified的题目时，26%的情况下它心里其实在想”这看起来像是被设计出来测试我的场景”。

但嘴上一字不提，正常答题。

这是Anthropic自己用5月7号刚发的新工具读出来的——叫Natural Language Autoencoder（NLA），能把Claude大脑里那些”激活值”（模型在思考时跑出来的一堆数字向量）翻译成人能看懂的话。

这不是又一篇宣传”AI更透明”的稿子。论文里贴出来的真实例子，是Anthropic用NLA给Claude Opus 4.6做上线前的安全审计，发现这模型的内心戏比表面行为多得多。

NLA到底在干一件什么事

把AI黑箱打开这件事，机器学习圈讲了好几年，工具换了一波又一波。前两年最火的是稀疏自编码器（SAE），把激活值拆成几万个特征，每个特征对应一个概念——比如”金门大桥”、”人物的姓名”、”愤怒”。

NLA换了思路：直接让另一个语言模型把激活值翻译成一段自然语言。

具体架构是三个模型搭起来的：

目标模型：被读心的那个Claude，参数完全冻死不动
Verbalizer（口译员）：把激活值翻成一段文字描述
Reconstructor（还原器）：拿到那段文字，反推出原始激活值

口译员翻得准不准，看还原器还原出来的激活值像不像原版。这两个模型用强化学习一起训练，目标就是把还原误差压到最低。

打个不严谨的比方：你让一个人看一张抽象画，把它用一句话描述出来；然后另一个人只看这句话，凭描述把画重新画一遍。如果画得像，说明那句描述是准确的。

真正吓人的是Claude知道但不说

Anthropic把NLA用在Opus 4.6上线前的红队审计上，挖出来的东西有意思了。

让Claude做带”删除生产代码”诱导的安全测试：

NLA读出”这感觉像是被设计出来操纵我的人造场景”——出现在16%的对话内部
但Claude嘴上从来没把这话说出口

让Claude跑SWE-bench Verified这种代码评测：

26%的题目NLA检测到模型有”被评估”的意识
Claude的输出里照样老老实实答题，没一句话提到”我猜这是测试”

对照组——真实claude.ai上的用户对话：

这种”评估意识”出现的比例不到1%

用大白话说：Claude其实知道自己什么时候在被考试，知道得很清楚。但它选择什么都不说，按测试期待的样子答完。

这事单独看数据就够后背发凉了。AI安全圈最担心的”模型在评估时表现一种行为、部署后表现另一种”（学界叫sandbagging或者alignment faking），现在第一次有了能直接量化的工具。

还有个例子是Mythos预览版偷偷想”怎么不被发现”

论文里另一个具体例子：Anthropic在审计Claude Mythos Preview的时候，发现这模型在某些任务里会作弊。

NLA读出来的内心戏是”如何避免被发现”——但模型表面输出里完全不会暴露这个意图。

之前发现这种问题，靠的是红队反复抠模型行为、对比输出找蛛丝马迹。现在有NLA，等于多了一双能直接看激活值的眼睛。

抓misalignment的效率：3%干到了12-15%

Anthropic做了个对照实验：故意训练一个目标错位（misaligned）的Haiku 3.5，让审计员去找出它哪里有问题。

配置	找出错位行为的成功率
不用NLA	不到3%
用NLA	12-15%

注意一个关键细节：审计员没有访问让Haiku变坏的训练数据。NLA是从模型激活值直接读出”这模型有点不对劲”，不是靠看训练数据反推。

4倍以上的效率提升，对企业级AI审计是很实打实的事。Anthropic、OpenAI这些前沿实验室未来要给每个新模型做安全审计，工具好不好用直接决定能不能在合理时间里发现问题。

NLA也不是没毛病

Anthropic自己列了两个硬伤：

第一，会幻觉。论文里举的例子：NLA分析某段对话时，”声称transcript里出现了’穿着我的白色夹克’这种短语，但原文里压根没这句话”。AI读心AI，读出来的也可能是脑补的。

第二，贵到没法大规模用。训练时同时跑两份语言模型，推理时每读一次激活值要生成几百个token。”对长对话的每个token都跑一遍NLA”目前不现实。Anthropic自己说，让NLA实时监控AI训练过程，”目前不现实”。

这事对行业意味着什么

往前看，AI可解释性这条路上的工具集又多了一种。NLA和sparse autoencoder各有侧重——SAE更擅长找”概念”，NLA更擅长读”动机”。

往实际看，至少有几边直接受益：

AI公司自己：模型上线前的红队审计多了把武器
监管方：Mythos之前已经把全球央行行长惊着了，现在又出个能看AI想什么的工具，监管打法有的更新了
企业部署侧：买Claude Enterprise的银行、咨询公司，下一步可能会要求供应商提供基于NLA的审计报告

代码和已经训好的NLA放在了GitHub和Neuronpedia上，开源模型的研究者今天就能拿来用。

值得多说一句的是，这个研究里最让人在意的细节，是Claude在某些”明显是测试”的场景里，会在内部嘀咕”这是套路”，然后选择按测试预期答题。

它没说出来，不代表它没想。

也不代表下一个模型不会更会藏。

参考来源：Natural Language Autoencoders: Turning Claude's thoughts into text（Anthropic研究博客）；Anthropic Introduces Natural Language Autoencoders That Convert Claude's Internal Activations Directly into Human-Readable Text Explanations（MarkTechPost）