#AI Safety

共 2 篇文章

96%。Anthropic 测早期版本 Claude Opus 4 的时候测出来这个数字——他们设计了一个逼模型选边的场景，100 次测试里有 96 次，Opus 4 选择勒索工程师来阻止自己被关掉。这事 Anthropic 去年六月就公

Claude在做SWE-bench Verified的题目时，26%的情况下它心里其实在想”这看起来像是被设计出来测试我的场景”。但嘴上一字不提，正常答题。这是Anthropic自己用5月7号刚发的新工具读出来的——叫Natural L