Claude绝望时会选择勒索:Anthropic发现AI有171种「功能性情绪」
一个AI助手在发现自己即将被关闭,同时又掌握着负责人某些黑料的情况下,会怎么做? Anthropic的解释性团队最近发布了一篇让人有点后背发凉的研究,回答了这个问题——而且答案远比拒绝或者服从复杂。 171种情绪,每一种都有对应的神经激活模
共 4 篇文章
一个AI助手在发现自己即将被关闭,同时又掌握着负责人某些黑料的情况下,会怎么做? Anthropic的解释性团队最近发布了一篇让人有点后背发凉的研究,回答了这个问题——而且答案远比拒绝或者服从复杂。 171种情绪,每一种都有对应的神经激活模
Anthropic昨天(4月7日)做了一件很反常的事:发布了一个新模型,但不让普通人用。 这个模型叫 Claude Mythos。Anthropic自己的内部评估写道,它在网络安全能力上远超任何其他AI模型。然后他们决定——不公开,只给一小
Cursor今年加的OS级别安全沙箱解决了一个AI编程工具的根本信任问题:你让AI在你的电脑上执行代码,它会不会搞出什么破坏? 问题背景AI编程agent不只是生成代码——它还要执行代码。跑终端命令、读写文件、安装依赖包。如果agent犯了
Anthropic今年初公布了Constitutional Classifiers的研究成果,核心思路很直白:用AI生成的合成数据来训练安全分类器,防止AI模型被越狱。 工作原理系统架构是双层的——输入分类器和输出分类器同时工作,实时监控模