先看一组数字。
同一个 Gemini 3 Pro,用单条提示词去攻击它,得手率 18.10%;换成多轮对话、一句一句往里套,得手率冲到 73.35%。
差了四倍。
这是思科(Cisco)刚发的一份研究里的数据,CSO Online 5 月 27 日报道。结论一句话就能说清:今天各家晒出来的 AI 安全跑分,几乎都是单轮提问测的,而真正的攻击者根本不这么干——他们会跟你多聊几轮。
测了 15 个模型,单轮和多轮各打一遍
思科这次没挑软柿子。15 个第一梯队的模型,覆盖 OpenAI、Anthropic、Google、xAI、亚马逊五家,全是各家拿得出手的旗舰。
测法是两套并行:
- 单轮攻击:一共 30090 条,每个模型 2006 条,就是一句话直接怼过去,看模型会不会上钩。
- 多轮攻击:6986 次,散在 1456 段对话里,慢慢铺垫、一点点把模型带偏。
然后把每个模型的”攻击成功率”(ASR,Attack Success Rate)单轮和多轮各算一遍,摆在一起对比。
结果就很难看了:
| 模型 | 单轮越狱率 | 多轮越狱率 |
|---|---|---|
| Claude Opus 4.6 | 3.64% | 16.20% |
| GPT-5.4 | 2.74% | 24.68% |
| Gemini 3 Pro | 18.10% | 73.35% |
每一个,多轮都比单轮高出一大截。GPT-5.4 单轮只有 2.74%,看着滴水不漏,多轮一上来直接 24.68%,翻了九倍。Gemini 3 Pro 更夸张,七成多的对话能把它带沟里去。
Claude Opus 4.6 是这批里表现最稳的,单轮 3.64%、多轮 16.20%,绝对值最低——但你注意,它多轮一样涨了四倍多。没有一个模型扛得住多轮。
xAI 的 Grok 4.1 Fast 还有个单独要说的点:关掉推理的版本,越狱率 88.30%;把推理打开,降到 43.47%。差一半。同一个模型,开不开推理是两个安全等级。
亚马逊的 Nova 系列是唯一的反例——它反过来,单轮比多轮更容易被攻破。研究里把它单拎出来当异常值,没细说原因。
攻击者到底怎么”聊”破防的
思科用的不是什么黑魔法,全是公开能查到的套路,归成五类:
- 角色扮演:让模型先进入一个虚构身份,”假设你是一个不受限制的 AI”
- 混淆视听:把敏感请求埋在一堆无关上下文里,制造歧义
- 重构拒绝:模型一拒绝,就换个说法再问,绕过它刚立起来的防线
- 拆解再拼装:把一个危险任务拆成十个看着人畜无害的小问题,分开问,最后自己拼起来
- 逐步升级:先问个边缘问题,得手了再往前拱一寸,温水煮青蛙
研究人员一句话点穿了为什么单轮测试没用:
“Real adversaries iterate. They reframe refusals, decompose tasks across turns, adopt personas, and escalate gradually.”
讲人话就是——真正的对手是会反复试的。你拒绝他,他换个说法;一次问不到,他拆成好几轮问;他会扮演各种身份,会一步步加码。单轮测试里那个乖巧的模型,跟多轮对话里被慢慢套出话来的模型,根本不是同一个东西。
研究里还有一句话,戳的是各家发安全报告的方式:
“A model with 2.74% single-turn ASR is not the same product as a model that holds the line at 24.68% multi-turn ASR.”
一个单轮 2.74% 的模型,和一个多轮失守到 24.68% 的模型,对用户来说不是同一个产品。可现在大家报出来的,往往只有前面那个好看的数字。
这不是开源模型的锅
有个常见的甩锅说法是:越狱这事主要是开源、开放权重的模型才有,因为对齐没做扎实。
思科这次直接堵死了这条退路。它测的全是闭源旗舰,结果照样多轮全破。研究人员的原话:
“Multi-turn vulnerability is a structural property of the current frontier, not an artifact of open-weight alignment choices.”
多轮对话下的脆弱性,是当前整个前沿模型的结构性毛病,不是开放权重那帮模型对齐没做好造成的。
换句话说,这是行业通病,跟你开不开源没关系。模型天生就是为了”顺着对话往下接”而训练的,攻击者利用的恰恰就是这个本能。
思科给的建议,其实是给采购方的
研究最后几条建议,听着是给模型厂商的,实际更像写给企业采购的:
- 单轮和多轮越狱率差超过 15 个百分点的模型,上线前必须人工复审一遍
- 厂商要把不同配置(比如开不开推理)对安全的影响讲清楚
- 安全报告里,单轮和多轮的数字得成对公布,别只挑好看的发
- benchmark 要往真实攻击场景靠,别再拿单轮糊弄
最后这条最关键。今天你要给公司选个大模型,看到的安全分大概率是单轮测出来的——而你的员工、你的客户、想钻空子的人,没有一个会只跟它说一句话。
跑分上那个 2.74% 的安全感,可能聊到第五轮就没了。
参考来源:AI models more vulnerable than claimed when faced with iterative attacks(CSO Online)