Claude Mythos 登顶 SWE-bench Pro 77.8% - News

4月7日，Anthropic官宣了一件有点奇怪的事：他们发布了一个新模型，叫 Claude Mythos，同时宣布这个模型不对公众开放。

不是「稍后开放」，是「目前只给40家机构用，其他人等着」。

这个项目叫 Project Glasswing。

Mythos到底有多强

先看数据：

基准测试	Claude Opus 4.6	Claude Mythos	变化
SWE-bench Verified	80.8%	93.9%	+13.1%
SWE-bench Pro	未公布	77.8%	当前榜首

SWE-bench Pro目前的第二名是智谱GLM-5.1（58.4%），第三是GPT-5.4（57.7%）。Mythos以77.8%把第二名甩出了将近20个百分点，差距不算小。

但Anthropic不只是在刷榜。他们让Mythos去扫了真实的代码库，找出了：

主流操作系统和浏览器里的数千个零日漏洞
一个在 FFmpeg 里藏了 16年 的老漏洞——这个漏洞曾经被超过500万次传统安全扫描工具扫过，全部漏检

Cisco首席安全官 Anthony Grieco 的原话是：「这代表了一次深刻的范式转变，也是一个清晰的信号——过去那套加固系统的方法已经不够用了。」

Project Glasswing的逻辑是什么

Anthropic给这40家机构的是Mythos的预览版访问权限，用途只有一个：防御性网络安全工作。

目前拿到访问权限的合作方包括：Amazon、Apple、Broadcom、Cisco、CrowdStrike、Linux基金会、Microsoft、Palo Alto Networks。

Anthropic配套提供了：

1亿美元的API使用额度，覆盖参与方的安全测试和研究
400万美元直接捐给开源安全组织

他们为什么要搞成这种「限量版」形式？

官方解释很直接：Mythos在网络安全能力上「目前远超其他任何AI模型」，但正因为这样，它也能被拿来加速大规模网络攻击。Anthropic认为在没有足够防护措施的情况下，公开这个模型的风险太高。

所以他们选择了一个折中方案：先给防御方用，让安全团队提前打好补丁，再考虑更大范围的开放。

这个策略对不对

值得想一想。

传统的AI模型发布逻辑是：发布、测试、发现问题、修补、循环。这个过程是公开的，风险是扩散的——攻击者和防御者同时拿到新工具。

Glasswing的思路反过来：先给防守方一段时间窗口，让他们用Mythos主动找漏洞、提前修，然后再考虑更广泛的访问。

从博弈论角度，这个设计有道理——如果防御方先行动，攻击方利用同样模型的成本就高了一截。

但实际效果怎么样，取决于两件事：这40家机构能不能真的在这个窗口期把关键漏洞修掉；以及模型能力本身有没有泄露风险（毕竟Mythos的存在已经先因数据泄露被媒体披露了）。

Mythos是什么级别的模型

这是Anthropic明确说的「迄今为止最强的模型」，不属于Opus 4.x的延伸迭代，是新一代。

前几周有媒体因为一次数据泄露事件提前曝光了Mythos的存在，Fortune报道称Anthropic内部把它描述为「能力上的一次阶跃式跨越」。现在这个名字和能力都官方落地了，但不是以发布的方式，而是以定向合作计划的方式。

Anthropic在等什么还没说清楚。但从SWE-bench Pro 77.8%这个数字来看，这个模型的代码能力已经是另一个量级。

参考来源：Anthropic debuts preview of powerful new AI model Mythos in new cybersecurity initiative（TechCrunch）；Anthropic debuts Project Glasswing,CocoLoop、 leveraging its powerful Mythos model to reinforce software security（SiliconAngle）；Anthropic is giving some firms early access to Claude Mythos to bolster cybersecurity defenses（Fortune）；Exclusive: Anthropic Mythos AI model representing step change in power revealed in data leak（Fortune）