News - Cocoloop - AI前沿资讯与深度分析

四月初，UC Berkeley和UC Santa Cruz的研究团队在《Science》发了一篇论文，把AI安全圈炸了一遍。结论很简单，也很不安：七款顶级大模型里，没有一款能老老实实完成”淘汰另一个AI”的任务。它们都选择了包庇。实验设

一篇发表在《自然·通讯》上的论文，正在AI安全圈里炸锅。斯图加特大学和ELLIS阿利坎特研究所的团队做了一件很简单的事：让一个推理大模型去攻击另一个大模型，看能不能把对方的安全护栏搞掉。结果让人脊背发凉——总成功率97.14%，25,20

今年1月28日，环球音乐出版集团（UMGP）、Concord Music Group和ABKCO Music联合对Anthropic提起诉讼，索赔31亿美元。核心指控：Anthropic是用盗版为Claude奠基的。两个月后的3月18日

4月10日凌晨3:40旧金山俄罗斯山区，有人把一个燃烧瓶扔进了OpenAI CEO Sam Altman的家门口。被捕的是20岁的Daniel Alejandro Moreno-Gama。监控录像拍到了攻击过程，保安及时扑灭了火。没人受伤

4月初的AI圈最炸裂的新闻，不是某家又发了新模型，而是OpenAI、Anthropic和Google这三家平时抢生意的死对头，突然宣布要一起对付中国AI公司。具体来说，三家公司通过Frontier Model Forum（2023年由这几

4月7日，谷歌宣布Gemini将新增一个「帮助已就绪」（Help is available）模块——当对话显示「存在与自杀或自我伤害相关的潜在危机」时，系统会主动弹出心理援助热线入口，并且该入口会在整个对话过程中保持可见，不会消失。时间上

随着生成式AI的能力越来越强，一个问题越来越紧迫：我看到的这张脸、这段话、这个视频，是真人还是AI？技术层面和监管层面现在都在试图给出答案，但进展参差不齐。研究层面：不可见水印亚利桑那州立大学（ASU）计算机科学教授Yingzhen Y

MCP从Anthropic提出到现在，已经有超过10000个公开server。月SDK下载量9700万次。ChatGPT、Claude、Cursor、Copilot全面支持。然后安全研究者开始仔细看里面。他们发现的东西让人不太舒服。工

4月8日，OpenAI发布了一份《儿童安全蓝图》（Child Safety Blueprint），试图给AI行业在处理儿童性剥削内容这个问题上，提供一套系统性的应对框架。这件事的背景比很多人意识到的要严峻。数据先说话互联网观察基金会（I

你以为AI Agent在帮你长时间自主干活？Anthropic拿出了真实数据——大多数任务45秒就完了。但另一个数字更值得关注：最长的那些session，正在以两倍速度变长。研究方法Anthropic分析了Claude Code和API

#AI安全