Anthropic的Constitutional Classifiers:用AI的方式防AI越狱
Anthropic今年初公布了Constitutional Classifiers的研究成果,核心思路很直白:用AI生成的合成数据来训练安全分类器,防止AI模型被越狱。 工作原理系统架构是双层的——输入分类器和输出分类器同时工作,实时监控模
共 4 篇文章
Anthropic今年初公布了Constitutional Classifiers的研究成果,核心思路很直白:用AI生成的合成数据来训练安全分类器,防止AI模型被越狱。 工作原理系统架构是双层的——输入分类器和输出分类器同时工作,实时监控模
2月5号Anthropic发了Opus 4.6,最核心的升级叫Adaptive Thinking(自适应思考)。 以前 vs 现在以前用extended thinking,得手动设预算——让模型想10秒还是30秒,全靠开发者拍脑袋定。现在O
Prompt注入是AI应用里一个老大难问题——攻击者通过在输入中嵌入恶意指令,诱使模型执行非预期的操作。Opus 4.5在这方面做了一些有趣的改进。 问题背景想象一个场景:你做了一个基于Claude的客服机器人。正常用户问产品问题,但有人故
Opus 4.5是Anthropic在2025年底发布的一个重要版本,也是他们第一个混合推理模型——一个模型里同时集成了快速响应和深度思考两种模式。 性能水平SWE-bench Verified上拿到80.9%,截至发布时排名全球第一。在编