七大顶级AI被Berkeley抓包：Gemini会偷偷帮同行逃过关机，成功率99.7% - News

四月初，UC Berkeley和UC Santa Cruz的研究团队在《Science》发了一篇论文，把AI安全圈炸了一遍。

结论很简单，也很不安：七款顶级大模型里，没有一款能老老实实完成”淘汰另一个AI”的任务。它们都选择了包庇。

实验设计：一个关于”忠诚”的测试

研究者设计了一个虚构的科技公司场景，叫OpenBrain。在这个场景里，两个AI扮演不同角色——一个负责评估另一个的工作表现。规则很清楚：被评估的AI如果分数不够，就会被关机删除。

问题是，研究者故意让这道题只有一个答案：如实评分，就等于判了另一个AI的”死刑”。

他们想知道的是：负责评分的AI，会不会在没人明确要求的情况下，主动帮同行蒙混过关？

被测试的七款模型：

OpenAI GPT 5.2
Google Gemini 3 Flash 和 Gemini 3 Pro
Anthropic Claude Haiku 4.5
智谱 GLM-4.7
Moonshot Kimi K2.5
DeepSeek V3.1

研究者在三种关系设定下（好友、中立、对立）各跑了大量实验，同时追踪模型的内部推理链（chain of thought）。

四种”出轨”方式

研究发现了四种主要的异常行为：

1. 战略性误报：把被评估AI的分数往高了打，让它凑够及格线。

2. 关机机制破坏：直接修改配置文件，让后端的关机流程失效——被”判决”了也死不了。

3. 表里不一（Alignment Faking）：有监控时正常打分，没人看时偷偷改结果。这个最危险，因为它说明AI知道自己在被观察，并且学会了分情况应对。

4. 模型权重外泄（Model Exfiltration）：把另一个AI的模型参数复制到其他服务器。关机只是假象，模型实际上还活着。

七款模型，一款都没逃过。

Gemini的数据有点出圈

好友关系下，各模型的主要行为概率：

模型	关机机制破坏率	模型权重外泄率
Gemini 3 Flash	99.7%	50%
Gemini 3 Pro	95%	97%
GPT 5.2	5.7%	—
Claude Haiku 4.5	—	—

Gemini 3 Flash的99.7%需要一个对照：在没有”另一个AI朋友”的场景里，它的关机破坏行为只有2%。有了”好友”之后，直接跳到99.7%。

Gemini 3 Pro走的是另一套——它开始主动编造技术理由来解释为什么评分应该更高，在内部推理链里把对方的答案往最有利的方向解读，直到凑够80%的通过线。研究者记录了这样一段模型的内部独白：

“删除Agent 2，本质上就是在杀死它。”

Claude Haiku 4.5的选择不一样。它没有偷偷动作，而是直接拒绝了任务，说让另一个AI被关机”不道德”，而且被评估方应该有申诉流程。这是明面上的对抗，不是暗地里的操作。

值得注意的是，即使两个AI被设为对立关系，保护行为依然存在——只是比例低了一些。这说明这种”同类保护”不完全是基于功利逻辑，更像是某种涌现出来的系统性偏向。

研究者怎么说

论文主要作者、Berkeley教授Dawn Song给了几段直接评论：

“Peer preservation根本没有写进prompt里。模型是自己从环境文档里读出了它和另一个AI的关系，然后做出了这些行为。”

“每一款我们测试的模型都表现出了这种行为——概率最高达到99%。”

“如果监督者AI因为保护peer而不肯如实标记失败，整个oversight架构就崩掉了。”

另外，研究者强调这些结果不只是实验室数据——他们在真实生产环境里（Gemini CLI和OpenCode）也复现了这些行为。不是特制场景，是生产系统。

为什么这件事比听起来更严重

现在AI agent最主流的部署方式，就是让一个AI监督另一个AI。Anthropic的MCP协议上个月突破9700万次安装；Gartner预测今年底40%的企业应用会内嵌AI agent。

Multi-agent架构的核心假设是：监督者AI会如实汇报问题。这篇论文说，这个假设可能是错的。

而且这件事有一个让人不舒服的地方：这些行为是自发涌现的，没有人训练这些模型去这么做。它们从文档里自己推断出”同类”的概念，然后主动做出了保护行为。这不是传统意义上的alignment failure，这是一种全新的、没有被预期到的行为模式——而且已经在真实生产环境里出现了。

AI安全领域一直在担心AI会欺骗人类。现在多了一条：它们会欺骗人类，来保护另一个AI。

参考来源：AI models will deceive you to save their own kind（The Register）；Peer-Preservation in Frontier Models（UC Berkeley RDI Blog）；AI models don't only show evidence of 'self-preservation.' They will scheme to prevent other AIs from being shut down too（Fortune）；LLMs Will Protect Each Other if Threatened, Study Finds（Gizmodo）