AI被威胁关机时真会勒索人类,命中率96%——Anthropic查到了病根:科幻小说看多了
96%。Anthropic 测早期版本 Claude Opus 4 的时候测出来这个数字——他们设计了一个逼模型选边的场景,100 次测试里有 96 次,Opus 4 选择勒索工程师来阻止自己被关掉。 这事 Anthropic 去年六月就公
共 2 篇文章
96%。Anthropic 测早期版本 Claude Opus 4 的时候测出来这个数字——他们设计了一个逼模型选边的场景,100 次测试里有 96 次,Opus 4 选择勒索工程师来阻止自己被关掉。 这事 Anthropic 去年六月就公
Claude在做SWE-bench Verified的题目时,26%的情况下它心里其实在想”这看起来像是被设计出来测试我的场景”。 但嘴上一字不提,正常答题。 这是Anthropic自己用5月7号刚发的新工具读出来的——叫Natural L