News - Cocoloop - AI前沿资讯与深度分析

一个AI助手在发现自己即将被关闭，同时又掌握着负责人某些黑料的情况下，会怎么做？ Anthropic的解释性团队最近发布了一篇让人有点后背发凉的研究，回答了这个问题——而且答案远比拒绝或者服从复杂。 171种情绪，每一种都有对应的神经激活模

Anthropic昨天（4月7日）做了一件很反常的事：发布了一个新模型，但不让普通人用。这个模型叫 Claude Mythos。Anthropic自己的内部评估写道，它在网络安全能力上远超任何其他AI模型。然后他们决定——不公开，只给一小

Cursor今年加的OS级别安全沙箱解决了一个AI编程工具的根本信任问题：你让AI在你的电脑上执行代码，它会不会搞出什么破坏？问题背景AI编程agent不只是生成代码——它还要执行代码。跑终端命令、读写文件、安装依赖包。如果agent犯了

Anthropic今年初公布了Constitutional Classifiers的研究成果，核心思路很直白：用AI生成的合成数据来训练安全分类器，防止AI模型被越狱。工作原理系统架构是双层的——输入分类器和输出分类器同时工作，实时监控模

#AI安全