Sonnet 4.6比Opus 4.6差在哪儿?编程差1.2分,价格差5倍

如果你现在还在为要不要买Claude Opus 4.6的API额度发愁,这篇文章可能会让你省一笔钱。

Anthropic在2月份发布了Claude Sonnet 4.6,价格和Sonnet 4.5完全一样——输入$3/百万tokens,输出$15/百万tokens——但跑分直接逼近了贵5倍的Opus 4.6。

数字说话

先看最直观的对比:

基准测试 Sonnet 4.6 Opus 4.6 差距
SWE-bench Verified(编程) 79.6% 80.8% -1.2%
OSWorld-Verified(电脑操控) 72.5% 72.7% -0.2%
数学(MATH-500) 89% 未公开
GPQA Diamond(科学推理) 74.1% 91.3% -17.2%

编程和电脑操控——也就是大多数企业用Claude干的活——Sonnet 4.6已经几乎跟Opus 4.6持平了。真正拉开差距的是科学推理这类更学术的任务,Opus 4.6的91.3%对Sonnet的74.1%,这个坑没法忽略。

但如果你的用例主要是写代码、操控浏览器、处理长文档,花5倍价格换1.2个百分点的编程提升,算账你会觉得这不是聪明的选择。

电脑操控这条线有多陡

Anthropic公布了一组数据,展示了过去16个月OSWorld-Verified(衡量AI自主操控电脑能力的标准测试)的分数演变:

  • Sonnet 3.5:14.9%
  • Sonnet 3.5 v2:28.0%
  • Sonnet 3.6:42.2%
  • Sonnet 4.5:61.4%
  • Sonnet 4.6:72.5%

一年半时间从14.9%到72.5%,这条曲线比大多数人感知到的更陡峭。做保险业工作流自动化测试时,Sonnet 4.6拿到了94%的准确率,覆盖了操作复杂Excel表格、填写多步骤网页表单、调用老旧桌面应用这些让人头疼的任务。

数学跳了一大截

Sonnet 4.5在数学上得了62分,Sonnet 4.6直接跳到了89分。这个跨度是同代产品里最大的单项提升。具体原因Anthropic没有公开详细说,但结合推理能力的整体提升来看,大概率跟更好的思维链质量有关。

用户偏好数据

Anthropic做了一批Claude Code内部测试,让开发者在不知道对面是哪个模型的情况下比较输出质量:

  • Sonnet 4.6 vs Sonnet 4.5:用户70%选了Sonnet 4.6
  • Sonnet 4.6 vs Opus 4.5:用户**59%**选了Sonnet 4.6

后面这组数据更有意思。Opus 4.5比Sonnet 4.6贵得多,但在实际编程输出的主观评价上,Sonnet 4.6反而更受欢迎。给的原因包括:指令跟随更准确、更少幻觉、不会过度工程化(这是Opus系列一直存在的问题——它喜欢把简单需求做复杂)。

1M上下文不是噱头

这次Sonnet 4.6也带上了100万token的上下文窗口(beta版),不需要额外的header,超过200k的请求自动走这个通道,定价按标准计。

100万token大概是什么量级?一个中型企业的整个代码库,或者几十篇论文,都可以塞进单次请求里处理。原来需要做RAG切片的场景,现在直接扔进去让它自己找关联。

你到底该选哪个

选Sonnet 4.6的理由:

  • 主要任务是写代码、操控浏览器、处理长文档
  • 跑量大,价格敏感
  • 不需要博士级别的科学推理

选Opus 4.6的理由:

  • 需要高强度的科学推理或学术任务
  • 上下文需求极端复杂
  • 不在乎价格差异,只要最好的结果

对大多数开发者和企业来说,Sonnet 4.6是现在性价比最高的Claude入口。Opus 4.6的定价是$15/$75,Sonnet 4.6是$3/$15,相同的编程能力差了5倍。这笔账一点都不难算。

参考来源:Introducing Claude Sonnet 4.6(Anthropic官方);Claude Sonnet 4.6: 79.6% SWE-bench at $3/MTok — Complete Guide(NxCode);Claude Sonnet 4.6: 1M context and stronger computer use(Gend.co)