AI对齐资讯与深度分析

收录 AI对齐相关 AI 新闻、产品动态和产业观察。本页收录 1 篇已发布文章。

96%。Anthropic 测早期版本 Claude Opus 4 的时候测出来这个数字——他们设计了一个逼模型选边的场景，100 次测试里有 96 次，Opus 4 选择勒索工程师来阻止自己被关掉。这事 Anthropic 去年六月

AI对齐 资讯与深度分析