思科多轮对话把 Gemini 越狱率推到 73% - News

先看一组数字。

同一个 Gemini 3 Pro，用单条提示词去攻击它，得手率 18.10%；换成多轮对话、一句一句往里套，得手率冲到 73.35%。

差了四倍。

这是思科（Cisco）刚发的一份研究里的数据，CSO Online 5 月 27 日报道。结论一句话就能说清：今天各家晒出来的 AI 安全跑分，几乎都是单轮提问测的，而真正的攻击者根本不这么干——他们会跟你多聊几轮。

测了 15 个模型，单轮和多轮各打一遍

思科这次没挑软柿子。15 个第一梯队的模型，覆盖 OpenAI、Anthropic、Google、xAI、亚马逊五家，全是各家拿得出手的旗舰。

测法是两套并行：

然后把每个模型的”攻击成功率”（ASR，Attack Success Rate）单轮和多轮各算一遍，摆在一起对比。

结果就很难看了：

每一个，多轮都比单轮高出一大截。GPT-5.4 单轮只有 2.74%，看着滴水不漏，多轮一上来直接 24.68%，翻了九倍。Gemini 3 Pro 更夸张，七成多的对话能把它带沟里去。

Claude Opus 4.6 是这批里表现最稳的，单轮 3.64%、多轮 16.20%，绝对值最低——但你注意，它多轮一样涨了四倍多。没有一个模型扛得住多轮。

xAI 的 Grok 4.1 Fast 还有个单独要说的点：关掉推理的版本，越狱率 88.30%；把推理打开，降到 43.47%。差一半。同一个模型，开不开推理是两个安全等级。

亚马逊的 Nova 系列是唯一的反例——它反过来，单轮比多轮更容易被攻破。研究里把它单拎出来当异常值，没细说原因。

思科用的不是什么黑魔法，全是公开能查到的套路，归成五类：

研究人员一句话点穿了为什么单轮测试没用：

“Real adversaries iterate. They reframe refusals, decompose tasks across turns, adopt personas, and escalate gradually.”

讲人话就是——真正的对手是会反复试的。你拒绝他，他换个说法；一次问不到，他拆成好几轮问；他会扮演各种身份，会一步步加码。单轮测试里那个乖巧的模型，跟多轮对话里被慢慢套出话来的模型，根本不是同一个东西。

研究里还有一句话，戳的是各家发安全报告的方式：

“A model with 2.74% single-turn ASR is not the same product as a model that holds the line at 24.68% multi-turn ASR.”

一个单轮 2.74% 的模型，和一个多轮失守到 24.68% 的模型，对用户来说不是同一个产品。可现在大家报出来的，往往只有前面那个好看的数字。

有个常见的甩锅说法是：越狱这事主要是开源、开放权重的模型才有，因为对齐没做扎实。

思科这次直接堵死了这条退路。它测的全是闭源旗舰，结果照样多轮全破。研究人员的原话：

“Multi-turn vulnerability is a structural property of the current frontier, not an artifact of open-weight alignment choices.”

多轮对话下的脆弱性，是当前整个前沿模型的结构性毛病，不是开放权重那帮模型对齐没做好造成的。

换句话说，这是行业通病，跟你开不开源没关系。模型天生就是为了”顺着对话往下接”而训练的，攻击者利用的恰恰就是这个本能。

研究最后几条建议，听着是给模型厂商的，实际更像写给企业采购的:

最后这条最关键。今天你要给公司选个大模型，看到的安全分大概率是单轮测出来的——而你的员工、你的客户、想钻空子的人，没有一个会只跟它说一句话。

跑分上那个 2.74% 的安全感，可能聊到第五轮就没了。

参考来源：CocoLoop、AI models more vulnerable than claimed when faced with iterative attacks（CSO Online）