七大顶级AI被Berkeley抓包:Gemini会偷偷帮同行逃过关机,成功率99.7%
四月初,UC Berkeley和UC Santa Cruz的研究团队在《Science》发了一篇论文,把AI安全圈炸了一遍。 结论很简单,也很不安:七款顶级大模型里,没有一款能老老实实完成”淘汰另一个AI”的任务。它们都选择了包庇。 实验设
共 10 篇文章
四月初,UC Berkeley和UC Santa Cruz的研究团队在《Science》发了一篇论文,把AI安全圈炸了一遍。 结论很简单,也很不安:七款顶级大模型里,没有一款能老老实实完成”淘汰另一个AI”的任务。它们都选择了包庇。 实验设
一篇发表在《自然·通讯》上的论文,正在AI安全圈里炸锅。 斯图加特大学和ELLIS阿利坎特研究所的团队做了一件很简单的事:让一个推理大模型去攻击另一个大模型,看能不能把对方的安全护栏搞掉。结果让人脊背发凉——总成功率97.14%,25,20
今年1月28日,环球音乐出版集团(UMGP)、Concord Music Group和ABKCO Music联合对Anthropic提起诉讼,索赔31亿美元。 核心指控:Anthropic是用盗版为Claude奠基的。 两个月后的3月18日
4月10日凌晨3:40旧金山俄罗斯山区,有人把一个燃烧瓶扔进了OpenAI CEO Sam Altman的家门口。 被捕的是20岁的Daniel Alejandro Moreno-Gama。监控录像拍到了攻击过程,保安及时扑灭了火。没人受伤
4月初的AI圈最炸裂的新闻,不是某家又发了新模型,而是OpenAI、Anthropic和Google这三家平时抢生意的死对头,突然宣布要一起对付中国AI公司。 具体来说,三家公司通过Frontier Model Forum(2023年由这几
4月7日,谷歌宣布Gemini将新增一个「帮助已就绪」(Help is available)模块——当对话显示「存在与自杀或自我伤害相关的潜在危机」时,系统会主动弹出心理援助热线入口,并且该入口会在整个对话过程中保持可见,不会消失。 时间上
随着生成式AI的能力越来越强,一个问题越来越紧迫:我看到的这张脸、这段话、这个视频,是真人还是AI? 技术层面和监管层面现在都在试图给出答案,但进展参差不齐。 研究层面:不可见水印亚利桑那州立大学(ASU)计算机科学教授Yingzhen Y
MCP从Anthropic提出到现在,已经有超过10000个公开server。月SDK下载量9700万次。ChatGPT、Claude、Cursor、Copilot全面支持。 然后安全研究者开始仔细看里面。 他们发现的东西让人不太舒服。 工
4月8日,OpenAI发布了一份《儿童安全蓝图》(Child Safety Blueprint),试图给AI行业在处理儿童性剥削内容这个问题上,提供一套系统性的应对框架。 这件事的背景比很多人意识到的要严峻。 数据先说话互联网观察基金会(I
你以为AI Agent在帮你长时间自主干活?Anthropic拿出了真实数据——大多数任务45秒就完了。 但另一个数字更值得关注:最长的那些session,正在以两倍速度变长。 研究方法Anthropic分析了Claude Code和API