Anthropic的Constitutional Classifiers：用AI的方式防AI越狱

Anthropic今年初公布了Constitutional Classifiers的研究成果，核心思路很直白：用AI生成的合成数据来训练安全分类器，防止AI模型被越狱。

工作原理

系统架构是双层的——输入分类器和输出分类器同时工作，实时监控模型的每一次交互。训练数据不是人工标注的，而是给LLM一套”宪法”（自然语言规则），让它自动生成各种攻击场景和对应的判断。

在超过3000小时的红队测试中，没有任何人找到能通用的越狱方法。

第一代就把越狱成功率从86%压到了4.4%，挡住了95%的攻击。红队发现的两种主要攻击思路是：

升级版Constitutional Classifiers++更狠——两阶段架构，先用一个轻量探针检查Claude的内部激活状态，发现可疑再上重型分类器。19.8万次红队尝试中只发现了1个高风险漏洞，依然没有通用越狱方法。

生产环境的误拒率只增加了0.38个百分点，推理开销增加23.7%。对于安全系统来说，这个代价相当划算。

Anthropic还在今年1月以CC公共领域授权发布了Claude的新版宪法，优先级从高到低：安全和人类监督 → 伦理行为 → Anthropic准则 → 有用性。把”有用性”放在最末位，这个排序本身就是一种态度表达。

参考来源：Anthropic Research官方论文