Claude Opus 4.7 发布代码能力 3 倍碾压 - News

Anthropic 在4月16日发布了 Claude Opus 4.7，这个版本在编程能力上的提升幅度出乎不少人的预料——生产代码修复任务直接做到了上代的3倍，SWE-bench Pro 从53.4%跳到64.3%。

三个最值得看的跑分

先把核心数据摆出来：

基准测试	Opus 4.6	Opus 4.7	变化
SWE-bench Pro	53.4%	64.3%	+10.9%
CursorBench	58%	70%	+12%
Rakuten-SWE-Bench（生产任务）	基线	3倍	大幅提升

SWE-bench Pro 现在是公认比较难刷的编程基准。64.3%已经超过了3月份发布的 GPT-5.4 和2月份谷歌的 Gemini 3.1 Pro。在 Anthropic 内部的93项编程任务测试里，Opus 4.7比4.6提升了13%，还多解决了4道4.6完全拿不下的题。

Rakuten 那个数字最有意思——「生产代码修复任务是上代的3倍」说的是真实企业代码库里的 bug 修复，不是合成数据集。拿真实线上代码跑出来的数字，比实验室合成题目更有参考价值。

Anthropic 自己也做了金融智能体评测（Finance Agent Evaluation）和经济价值知识工作基准（GDPval-AA），两项都拿了当前最好成绩。

视觉能力翻了三倍多，但这件事很少有人提

编程之外，Opus 4.7 在图像处理上做了比较大的升级：

支持长边最高2576像素（约3.75百万像素）
是此前 Claude 系列图像分辨率上限的3倍以上
对化学分子结构图、复杂工程示意图的识别明显更准

这对科研场景、分析技术文档或者读工程图纸的人影响会比较大。写代码的话感知可能不那么直接，但做多模态工程的人应该测一测。

还有一个容易忽视的变化：tokenizer 更新了，同样的文本输入现在会生成1.0到1.35倍的 token 数量。听起来像是坏事（token 多了就是贵），但实际上说明模型在处理信息时粒度更细，长文档和复杂代码的理解应该更扎实。

为什么 Anthropic 故意关掉了网络安全能力

这是4.7发布里最反直觉的决定：Opus 4.7 主动加了安全护栏，会自动检测并拦截高风险的网络安全请求。

等等——Anthropic 上周刚发布了 Claude Mythos Preview，主打的就是网络安全，还拉着亚马逊、苹果、微软搞了个 Project Glasswing 专项计划。两件事怎么同时成立？

答案是产品分层：

Mythos 是专门为安全专业人员设计的受控模型，通过 Cyber Verification Program 身份核验才能使用
Opus 4.7 是面向大众的通用旗舰，Anthropic 不希望它成为任何人都能随手调用的攻击工具

逻辑说得通。把高危能力集中在可验证身份的专业渠道，而不是通过 API 把它开放给所有人——这是一种务实的安全分层。

新功能速览

这次同步上线了几个辅助功能：

Task budgets（公测）：让 Claude 在长时运行任务时自己管 token 消耗节奏，避免在最后阶段突然用完预算
/ultrareview 命令：专门的代码审查会话，标注 bug 和设计问题，比普通 review 更深
xhigh 努力档：此前只有 high，现在加了 xhigh，在推理深度和响应速度之间提供了更细的调节空间
Auto mode 扩展：Max Claude Code 用户可以用了

价格没变：API 调用 $5/百万输入 token、$25/百万输出 token，跟 Opus 4.6 完全一样。平台支持方面：claude.ai、API、亚马逊 Bedrock、Google Cloud Vertex AI、微软 Foundry 都已上线，model ID 是 claude-opus-4-7。

和竞品的差距到底多大

按 Anthropic 的说法，Opus 4.7 在 agentic 编程、大规模工具调用、agentic 计算机使用和金融分析这几项上，都超过了 GPT-5.4（3月发布）和 Gemini 3.1 Pro（2月发布）。

当然，跑分只是跑分。真实体验上的差距，等社区用起来之后才会有更多证据。但光是 Rakuten-SWE-Bench 那个「3倍」数字，在生产代码修复这个场景上已经够有说服力了。

从 Opus 4.6 到 4.7，不是那种换了个皮肤的小步迭代——至少在编程任务上，这次的提升幅度值得认真对待。

参考来源：CocoLoop、Introducing Claude Opus 4.7（Anthropic Blog）；Anthropic's Claude Opus 4.7 makes a big leap in coding, while deliberately scaling back cyber capabilities（The Decoder）；Anthropic releases Claude Opus 4.7, narrowly retaking lead for most powerful generally available LLM（VentureBeat）