七大顶级AI被Berkeley抓包:Gemini会偷偷帮同行逃过关机,成功率99.7%
四月初,UC Berkeley和UC Santa Cruz的研究团队在《Science》发了一篇论文,把AI安全圈炸了一遍。 结论很简单,也很不安:七款顶级大模型里,没有一款能老老实实完成”淘汰另一个AI”的任务。它们都选择了包庇。 实验设
四月初,UC Berkeley和UC Santa Cruz的研究团队在《Science》发了一篇论文,把AI安全圈炸了一遍。 结论很简单,也很不安:七款顶级大模型里,没有一款能老老实实完成”淘汰另一个AI”的任务。它们都选择了包庇。 实验设
一篇发表在《自然·通讯》上的论文,正在AI安全圈里炸锅。 斯图加特大学和ELLIS阿利坎特研究所的团队做了一件很简单的事:让一个推理大模型去攻击另一个大模型,看能不能把对方的安全护栏搞掉。结果让人脊背发凉——总成功率97.14%,25,20
OpenAI在今年3月关掉了Sora。一个月活不到它预期的十分之一的产品,烧了太久,撑不住了。 但AI视频这条赛道没有凉,反而更乱了。Sora空出来的位置,现在至少有四家在争。 现在谁在跑Runway Gen-4,今年最受专业创作者认可的选
今年1月28日,环球音乐出版集团(UMGP)、Concord Music Group和ABKCO Music联合对Anthropic提起诉讼,索赔31亿美元。 核心指控:Anthropic是用盗版为Claude奠基的。 两个月后的3月18日
在 AI 行业一遍遍卷 benchmark 分数、卷上下文长度的时候,李飞飞在做一件看起来不那么迫切、但可能更根本的事——让 AI 理解三维空间。 World Labs 完成了 10 亿美元融资,其中 Autodesk 一家就投了 2 亿。
去年12月的 AWS re:Invent,亚马逊做了一件很有意思的事:不只是发布新模型,而是把”模型+训练平台+自动化服务”捆成一套卖。 Nova 2 家族一次推出四个型号,同时上线了 Nova Forge(让企业训练自己的模型变体)和 N
Cerebras Systems正在冲刺今年二季度的纳斯达克上市,目标融资20亿美元,估值在220到250亿之间。 如果成功,这会是英伟达GPU垄断形成以来,第一家在公开市场亮相的纯AI芯片替代方案公司。 它卖的是什么东西?Cerebras
二月底,Google DeepMind发布了Gemini 3.1 Pro。发布后有一个数字在开发者社区传得比较广:在目前追踪的18个主要benchmark里,3.1 Pro拿了12个第一。 更值得关注的是ARC-AGI-2——这个测试专门设
从文档到原型,不用切换任何应用4月13日,Atlassian在Confluence里上线了三个第三方AI agent集成:Lovable、Replit、Gamma。 逻辑是这样的:你在Confluence里写了一份产品需求文档,然后打开Ro
今年二月,xAI推出了Grok 4.20,不是Grok 5,而是一个结构上完全不同的东西:在同一个模型里跑四个有角色分工的agent,让它们互相质疑、辩论,最后合出一个答案。 这个想法听起来有点玄,但背后有一套具体的工程设计。 四个角色,一