AI安全 2026-04-14 大模型开始互相攻击了:推理模型当黑客,97%胜率绕过所有AI安全护栏 一篇发表在《自然·通讯》上的论文,正在AI安全圈里炸锅。 斯图加特大学和ELLIS阿利坎特研究所的团队做了一件很简单的事:让一个推理大模型去攻击另一个大模型,看能不能把对方的安全护栏搞掉。结果让人脊背发凉——总成功率97.14%,25,20