Claude Opus 4.7发布:生产代码任务3倍碾压上代,但故意关掉了网络安全能力

Anthropic 在4月16日发布了 Claude Opus 4.7,这个版本在编程能力上的提升幅度出乎不少人的预料——生产代码修复任务直接做到了上代的3倍,SWE-bench Pro 从53.4%跳到64.3%。

三个最值得看的跑分

先把核心数据摆出来:

基准测试 Opus 4.6 Opus 4.7 变化
SWE-bench Pro 53.4% 64.3% +10.9%
CursorBench 58% 70% +12%
Rakuten-SWE-Bench(生产任务) 基线 3倍 大幅提升

SWE-bench Pro 现在是公认比较难刷的编程基准。64.3%已经超过了3月份发布的 GPT-5.4 和2月份谷歌的 Gemini 3.1 Pro。在 Anthropic 内部的93项编程任务测试里,Opus 4.7比4.6提升了13%,还多解决了4道4.6完全拿不下的题。

Rakuten 那个数字最有意思——「生产代码修复任务是上代的3倍」说的是真实企业代码库里的 bug 修复,不是合成数据集。拿真实线上代码跑出来的数字,比实验室合成题目更有参考价值。

Anthropic 自己也做了金融智能体评测(Finance Agent Evaluation)和经济价值知识工作基准(GDPval-AA),两项都拿了当前最好成绩。

视觉能力翻了三倍多,但这件事很少有人提

编程之外,Opus 4.7 在图像处理上做了比较大的升级:

  • 支持长边最高2576像素(约3.75百万像素)
  • 是此前 Claude 系列图像分辨率上限的3倍以上
  • 对化学分子结构图、复杂工程示意图的识别明显更准

这对科研场景、分析技术文档或者读工程图纸的人影响会比较大。写代码的话感知可能不那么直接,但做多模态工程的人应该测一测。

还有一个容易忽视的变化:tokenizer 更新了,同样的文本输入现在会生成1.0到1.35倍的 token 数量。听起来像是坏事(token 多了就是贵),但实际上说明模型在处理信息时粒度更细,长文档和复杂代码的理解应该更扎实。

为什么 Anthropic 故意关掉了网络安全能力

这是4.7发布里最反直觉的决定:Opus 4.7 主动加了安全护栏,会自动检测并拦截高风险的网络安全请求

等等——Anthropic 上周刚发布了 Claude Mythos Preview,主打的就是网络安全,还拉着亚马逊、苹果、微软搞了个 Project Glasswing 专项计划。两件事怎么同时成立?

答案是产品分层

  • Mythos 是专门为安全专业人员设计的受控模型,通过 Cyber Verification Program 身份核验才能使用
  • Opus 4.7 是面向大众的通用旗舰,Anthropic 不希望它成为任何人都能随手调用的攻击工具

逻辑说得通。把高危能力集中在可验证身份的专业渠道,而不是通过 API 把它开放给所有人——这是一种务实的安全分层。

新功能速览

这次同步上线了几个辅助功能:

  • Task budgets(公测):让 Claude 在长时运行任务时自己管 token 消耗节奏,避免在最后阶段突然用完预算
  • /ultrareview 命令:专门的代码审查会话,标注 bug 和设计问题,比普通 review 更深
  • xhigh 努力档:此前只有 high,现在加了 xhigh,在推理深度和响应速度之间提供了更细的调节空间
  • Auto mode 扩展:Max Claude Code 用户可以用了

价格没变:API 调用 $5/百万输入 token、$25/百万输出 token,跟 Opus 4.6 完全一样。平台支持方面:claude.ai、API、亚马逊 Bedrock、Google Cloud Vertex AI、微软 Foundry 都已上线,model ID 是 claude-opus-4-7

和竞品的差距到底多大

按 Anthropic 的说法,Opus 4.7 在 agentic 编程、大规模工具调用、agentic 计算机使用和金融分析这几项上,都超过了 GPT-5.4(3月发布)和 Gemini 3.1 Pro(2月发布)。

当然,跑分只是跑分。真实体验上的差距,等社区用起来之后才会有更多证据。但光是 Rakuten-SWE-Bench 那个「3倍」数字,在生产代码修复这个场景上已经够有说服力了。

从 Opus 4.6 到 4.7,不是那种换了个皮肤的小步迭代——至少在编程任务上,这次的提升幅度值得认真对待。

参考来源:Introducing Claude Opus 4.7(Anthropic Blog);Anthropic's Claude Opus 4.7 makes a big leap in coding, while deliberately scaling back cyber capabilities(The Decoder);Anthropic releases Claude Opus 4.7, narrowly retaking lead for most powerful generally available LLM(VentureBeat)