Anthropic 在4月16日发布了 Claude Opus 4.7,这个版本在编程能力上的提升幅度出乎不少人的预料——生产代码修复任务直接做到了上代的3倍,SWE-bench Pro 从53.4%跳到64.3%。
三个最值得看的跑分
先把核心数据摆出来:
| 基准测试 | Opus 4.6 | Opus 4.7 | 变化 |
|---|---|---|---|
| SWE-bench Pro | 53.4% | 64.3% | +10.9% |
| CursorBench | 58% | 70% | +12% |
| Rakuten-SWE-Bench(生产任务) | 基线 | 3倍 | 大幅提升 |
SWE-bench Pro 现在是公认比较难刷的编程基准。64.3%已经超过了3月份发布的 GPT-5.4 和2月份谷歌的 Gemini 3.1 Pro。在 Anthropic 内部的93项编程任务测试里,Opus 4.7比4.6提升了13%,还多解决了4道4.6完全拿不下的题。
Rakuten 那个数字最有意思——「生产代码修复任务是上代的3倍」说的是真实企业代码库里的 bug 修复,不是合成数据集。拿真实线上代码跑出来的数字,比实验室合成题目更有参考价值。
Anthropic 自己也做了金融智能体评测(Finance Agent Evaluation)和经济价值知识工作基准(GDPval-AA),两项都拿了当前最好成绩。
视觉能力翻了三倍多,但这件事很少有人提
编程之外,Opus 4.7 在图像处理上做了比较大的升级:
- 支持长边最高2576像素(约3.75百万像素)
- 是此前 Claude 系列图像分辨率上限的3倍以上
- 对化学分子结构图、复杂工程示意图的识别明显更准
这对科研场景、分析技术文档或者读工程图纸的人影响会比较大。写代码的话感知可能不那么直接,但做多模态工程的人应该测一测。
还有一个容易忽视的变化:tokenizer 更新了,同样的文本输入现在会生成1.0到1.35倍的 token 数量。听起来像是坏事(token 多了就是贵),但实际上说明模型在处理信息时粒度更细,长文档和复杂代码的理解应该更扎实。
为什么 Anthropic 故意关掉了网络安全能力
这是4.7发布里最反直觉的决定:Opus 4.7 主动加了安全护栏,会自动检测并拦截高风险的网络安全请求。
等等——Anthropic 上周刚发布了 Claude Mythos Preview,主打的就是网络安全,还拉着亚马逊、苹果、微软搞了个 Project Glasswing 专项计划。两件事怎么同时成立?
答案是产品分层:
- Mythos 是专门为安全专业人员设计的受控模型,通过 Cyber Verification Program 身份核验才能使用
- Opus 4.7 是面向大众的通用旗舰,Anthropic 不希望它成为任何人都能随手调用的攻击工具
逻辑说得通。把高危能力集中在可验证身份的专业渠道,而不是通过 API 把它开放给所有人——这是一种务实的安全分层。
新功能速览
这次同步上线了几个辅助功能:
- Task budgets(公测):让 Claude 在长时运行任务时自己管 token 消耗节奏,避免在最后阶段突然用完预算
- /ultrareview 命令:专门的代码审查会话,标注 bug 和设计问题,比普通 review 更深
- xhigh 努力档:此前只有 high,现在加了 xhigh,在推理深度和响应速度之间提供了更细的调节空间
- Auto mode 扩展:Max Claude Code 用户可以用了
价格没变:API 调用 $5/百万输入 token、$25/百万输出 token,跟 Opus 4.6 完全一样。平台支持方面:claude.ai、API、亚马逊 Bedrock、Google Cloud Vertex AI、微软 Foundry 都已上线,model ID 是 claude-opus-4-7。
和竞品的差距到底多大
按 Anthropic 的说法,Opus 4.7 在 agentic 编程、大规模工具调用、agentic 计算机使用和金融分析这几项上,都超过了 GPT-5.4(3月发布)和 Gemini 3.1 Pro(2月发布)。
当然,跑分只是跑分。真实体验上的差距,等社区用起来之后才会有更多证据。但光是 Rakuten-SWE-Bench 那个「3倍」数字,在生产代码修复这个场景上已经够有说服力了。
从 Opus 4.6 到 4.7,不是那种换了个皮肤的小步迭代——至少在编程任务上,这次的提升幅度值得认真对待。
参考来源:Introducing Claude Opus 4.7(Anthropic Blog);Anthropic's Claude Opus 4.7 makes a big leap in coding, while deliberately scaling back cyber capabilities(The Decoder);Anthropic releases Claude Opus 4.7, narrowly retaking lead for most powerful generally available LLM(VentureBeat)