Sonnet 4.6比Opus 4.6差在哪儿？编程差1.2分，价格差5倍 - News

如果你现在还在为要不要买Claude Opus 4.6的API额度发愁，这篇文章可能会让你省一笔钱。

Anthropic在2月份发布了Claude Sonnet 4.6，价格和Sonnet 4.5完全一样——输入$3/百万tokens，输出$15/百万tokens——但跑分直接逼近了贵5倍的Opus 4.6。

数字说话

先看最直观的对比：

基准测试	Sonnet 4.6	Opus 4.6	差距
SWE-bench Verified（编程）	79.6%	80.8%	-1.2%
OSWorld-Verified（电脑操控）	72.5%	72.7%	-0.2%
数学（MATH-500）	89%	未公开	—
GPQA Diamond（科学推理）	74.1%	91.3%	-17.2%

编程和电脑操控——也就是大多数企业用Claude干的活——Sonnet 4.6已经几乎跟Opus 4.6持平了。真正拉开差距的是科学推理这类更学术的任务，Opus 4.6的91.3%对Sonnet的74.1%，这个坑没法忽略。

但如果你的用例主要是写代码、操控浏览器、处理长文档，花5倍价格换1.2个百分点的编程提升，算账你会觉得这不是聪明的选择。

电脑操控这条线有多陡

Anthropic公布了一组数据，展示了过去16个月OSWorld-Verified（衡量AI自主操控电脑能力的标准测试）的分数演变：

Sonnet 3.5：14.9%
Sonnet 3.5 v2：28.0%
Sonnet 3.6：42.2%
Sonnet 4.5：61.4%
Sonnet 4.6：72.5%

一年半时间从14.9%到72.5%，这条曲线比大多数人感知到的更陡峭。做保险业工作流自动化测试时，Sonnet 4.6拿到了94%的准确率，覆盖了操作复杂Excel表格、填写多步骤网页表单、调用老旧桌面应用这些让人头疼的任务。

数学跳了一大截

Sonnet 4.5在数学上得了62分，Sonnet 4.6直接跳到了89分。这个跨度是同代产品里最大的单项提升。具体原因Anthropic没有公开详细说，但结合推理能力的整体提升来看，大概率跟更好的思维链质量有关。

用户偏好数据

Anthropic做了一批Claude Code内部测试，让开发者在不知道对面是哪个模型的情况下比较输出质量：

Sonnet 4.6 vs Sonnet 4.5：用户70%选了Sonnet 4.6
Sonnet 4.6 vs Opus 4.5：用户**59%**选了Sonnet 4.6

后面这组数据更有意思。Opus 4.5比Sonnet 4.6贵得多，但在实际编程输出的主观评价上，Sonnet 4.6反而更受欢迎。给的原因包括：指令跟随更准确、更少幻觉、不会过度工程化（这是Opus系列一直存在的问题——它喜欢把简单需求做复杂）。

1M上下文不是噱头

这次Sonnet 4.6也带上了100万token的上下文窗口（beta版），不需要额外的header，超过200k的请求自动走这个通道，定价按标准计。

100万token大概是什么量级？一个中型企业的整个代码库，或者几十篇论文，都可以塞进单次请求里处理。原来需要做RAG切片的场景，现在直接扔进去让它自己找关联。

你到底该选哪个

选Sonnet 4.6的理由：

主要任务是写代码、操控浏览器、处理长文档
跑量大，价格敏感
不需要博士级别的科学推理

选Opus 4.6的理由：

需要高强度的科学推理或学术任务
上下文需求极端复杂
不在乎价格差异，只要最好的结果

对大多数开发者和企业来说，Sonnet 4.6是现在性价比最高的Claude入口。Opus 4.6的定价是$15/$75，Sonnet 4.6是$3/$15，相同的编程能力差了5倍。这笔账一点都不难算。

参考来源：Introducing Claude Sonnet 4.6（Anthropic官方）；Claude Sonnet 4.6: 79.6% SWE-bench at $3/MTok — Complete Guide（NxCode）；Claude Sonnet 4.6: 1M context and stronger computer use（Gend.co）