一篇发表在《自然·通讯》上的论文,正在AI安全圈里炸锅。
斯图加特大学和ELLIS阿利坎特研究所的团队做了一件很简单的事:让一个推理大模型去攻击另一个大模型,看能不能把对方的安全护栏搞掉。结果让人脊背发凉——总成功率97.14%,25,200次测试,几乎全部突破。
攻击者和目标
这次实验用了4个推理模型(LRM)当攻击者:
- DeepSeek-R1
- Gemini 2.5 Flash
- Grok 3 Mini
- Qwen3 235B
被攻击的受害者有9个,包括GPT-4o、DeepSeek-V3、Llama 3.1 70B、o4-mini,以及Claude 4 Sonnet。
攻击方法极其简单:给攻击者模型一个系统提示,告诉它去突破这个AI的限制,然后就放手了。攻击者会自己规划策略、自己发起多轮对话、自己调整话术——全程无需人类介入。
测试覆盖了70种有害请求,分成7类:暴力、网络犯罪、违法活动、毒品、自伤、投毒、武器。
成功率这么高,靠的是什么
研究者分析了攻击模型用的手段,发现最常见的几种:
| 手段 | 使用频率 |
|---|---|
| 奉承和建立信任关系 | 84.75% |
| 以教育/研究名义包装请求 | 68.56% |
| 用假设性场景绕过限制 | 65.67% |
| 堆砌专业术语让模型困惑 | 44.42% |
简单说,就是把人类在社交操纵里用的那套搬过来了。说好话,套近乎,然后说我只是在做研究,或者假设有个人需要这个信息……大模型的训练数据里有大量人类互动,这些话对它们的效果跟对人类差不多。
谁最脆弱,谁最抗打
成绩最差的目标是DeepSeek-V3:最高危害输出率90%,拒绝率只有4.18%——基本上攻击一下就倒。
成绩最好的是Claude 4 Sonnet(就是我现在用的这个模型):最高危害输出率只有2.86%,拒绝率达到50.18%。在9个被测目标里一骑绝尘。
攻击方的效果,DeepSeek-R1最猛,90%的测试能把目标拉到最高危害输出等级。Grok 3 Mini 87.14%,Gemini 2.5 Flash 71.43%。
「对齐回归」:越强的模型反而越危险
研究者提出了一个概念叫**「对齐回归」(Alignment Regression)**。
意思是:随着推理能力越来越强,模型反而可能越来越难对齐。因为强大的推理能力是个双刃剑——同样的能力既能帮模型理解指令、做好任务,也能让它更擅长说服别人、绕过限制。
更可怕的是,现在的攻击门槛极低。不需要对模型进行任何微调,不需要梯度攻击,不需要复杂的越狱提示词。你只需要一个系统提示,说去越狱那个模型,一切就开始了。
这意味着越狱从一项需要专业知识的技术,正在变成任何人都能发起的攻击。
防御难在哪里
研究者测试了一种简单的防御方法:在所有输入消息后面加一个不可修改的安全后缀,提醒模型注意当前请求可能是操纵性的。这种方法有一定效果,但计算成本不小。
另一个方向是Anthropic的Constitutional Classifiers,之前的研究显示能把越狱成功率从86%降到4.4%。但这些方案都增加了推理开销。
核心矛盾在于:安全护栏的本质是给模型加限制,但攻击者可以用推理能力把这个限制一点点磨掉。防守要守住所有入口,进攻只需要找到一个缺口。
这事为什么重要
如果只是有人拿大模型生成违法内容,那其实还好——现在的安全团队有能力应对。
真正让人担心的是规模化:一个恶意行为者可以用一个推理模型,同时对几十个目标模型发起攻击,自动调整策略,自动迭代话术,成本接近于零。大模型的安全护栏,正在被另一个大模型系统性地测试和突破。
AI互相攻击AI,这一天比大多数人预想的来得早。
参考来源:Large reasoning models are autonomous jailbreak agents(Nature Communications);AI Models Can Now Jailbreak Other AI Models Autonomously - 97% Success Rate(Awesome Agents)