Anthropic的Constitutional Classifiers:用AI的方式防AI越狱

 · 

Anthropic今年初公布了Constitutional Classifiers的研究成果,核心思路很直白:用AI生成的合成数据来训练安全分类器,防止AI模型被越狱。

工作原理

系统架构是双层的——输入分类器和输出分类器同时工作,实时监控模型的每一次交互。训练数据不是人工标注的,而是给LLM一套”宪法”(自然语言规则),让它自动生成各种攻击场景和对应的判断。

实战效果

在超过3000小时的红队测试中,没有任何人找到能通用的越狱方法

第一代就把越狱成功率从86%压到了4.4%,挡住了95%的攻击。红队发现的两种主要攻击思路是:

  • 重组攻击:把有害信息拆成看起来无害的碎片再拼回去
  • 混淆攻击:让模型用伪装格式输出敏感内容

升级版Constitutional Classifiers++更狠——两阶段架构,先用一个轻量探针检查Claude的内部激活状态,发现可疑再上重型分类器。19.8万次红队尝试中只发现了1个高风险漏洞,依然没有通用越狱方法。

代价呢?

生产环境的误拒率只增加了0.38个百分点,推理开销增加23.7%。对于安全系统来说,这个代价相当划算。

Anthropic还在今年1月以CC公共领域授权发布了Claude的新版宪法,优先级从高到低:安全和人类监督 → 伦理行为 → Anthropic准则 → 有用性。把”有用性”放在最末位,这个排序本身就是一种态度表达。

参考来源:Anthropic Research官方论文