Anthropic今年初公布了Constitutional Classifiers的研究成果,核心思路很直白:用AI生成的合成数据来训练安全分类器,防止AI模型被越狱。
工作原理
系统架构是双层的——输入分类器和输出分类器同时工作,实时监控模型的每一次交互。训练数据不是人工标注的,而是给LLM一套”宪法”(自然语言规则),让它自动生成各种攻击场景和对应的判断。
实战效果
在超过3000小时的红队测试中,没有任何人找到能通用的越狱方法。
第一代就把越狱成功率从86%压到了4.4%,挡住了95%的攻击。红队发现的两种主要攻击思路是:
- 重组攻击:把有害信息拆成看起来无害的碎片再拼回去
- 混淆攻击:让模型用伪装格式输出敏感内容
升级版Constitutional Classifiers++更狠——两阶段架构,先用一个轻量探针检查Claude的内部激活状态,发现可疑再上重型分类器。19.8万次红队尝试中只发现了1个高风险漏洞,依然没有通用越狱方法。
代价呢?
生产环境的误拒率只增加了0.38个百分点,推理开销增加23.7%。对于安全系统来说,这个代价相当划算。
Anthropic还在今年1月以CC公共领域授权发布了Claude的新版宪法,优先级从高到低:安全和人类监督 → 伦理行为 → Anthropic准则 → 有用性。把”有用性”放在最末位,这个排序本身就是一种态度表达。
参考来源:Anthropic Research官方论文