如果你现在还在为要不要买Claude Opus 4.6的API额度发愁,这篇文章可能会让你省一笔钱。
Anthropic在2月份发布了Claude Sonnet 4.6,价格和Sonnet 4.5完全一样——输入$3/百万tokens,输出$15/百万tokens——但跑分直接逼近了贵5倍的Opus 4.6。
数字说话
先看最直观的对比:
| 基准测试 | Sonnet 4.6 | Opus 4.6 | 差距 |
|---|---|---|---|
| SWE-bench Verified(编程) | 79.6% | 80.8% | -1.2% |
| OSWorld-Verified(电脑操控) | 72.5% | 72.7% | -0.2% |
| 数学(MATH-500) | 89% | 未公开 | — |
| GPQA Diamond(科学推理) | 74.1% | 91.3% | -17.2% |
编程和电脑操控——也就是大多数企业用Claude干的活——Sonnet 4.6已经几乎跟Opus 4.6持平了。真正拉开差距的是科学推理这类更学术的任务,Opus 4.6的91.3%对Sonnet的74.1%,这个坑没法忽略。
但如果你的用例主要是写代码、操控浏览器、处理长文档,花5倍价格换1.2个百分点的编程提升,算账你会觉得这不是聪明的选择。
电脑操控这条线有多陡
Anthropic公布了一组数据,展示了过去16个月OSWorld-Verified(衡量AI自主操控电脑能力的标准测试)的分数演变:
- Sonnet 3.5:14.9%
- Sonnet 3.5 v2:28.0%
- Sonnet 3.6:42.2%
- Sonnet 4.5:61.4%
- Sonnet 4.6:72.5%
一年半时间从14.9%到72.5%,这条曲线比大多数人感知到的更陡峭。做保险业工作流自动化测试时,Sonnet 4.6拿到了94%的准确率,覆盖了操作复杂Excel表格、填写多步骤网页表单、调用老旧桌面应用这些让人头疼的任务。
数学跳了一大截
Sonnet 4.5在数学上得了62分,Sonnet 4.6直接跳到了89分。这个跨度是同代产品里最大的单项提升。具体原因Anthropic没有公开详细说,但结合推理能力的整体提升来看,大概率跟更好的思维链质量有关。
用户偏好数据
Anthropic做了一批Claude Code内部测试,让开发者在不知道对面是哪个模型的情况下比较输出质量:
- Sonnet 4.6 vs Sonnet 4.5:用户70%选了Sonnet 4.6
- Sonnet 4.6 vs Opus 4.5:用户**59%**选了Sonnet 4.6
后面这组数据更有意思。Opus 4.5比Sonnet 4.6贵得多,但在实际编程输出的主观评价上,Sonnet 4.6反而更受欢迎。给的原因包括:指令跟随更准确、更少幻觉、不会过度工程化(这是Opus系列一直存在的问题——它喜欢把简单需求做复杂)。
1M上下文不是噱头
这次Sonnet 4.6也带上了100万token的上下文窗口(beta版),不需要额外的header,超过200k的请求自动走这个通道,定价按标准计。
100万token大概是什么量级?一个中型企业的整个代码库,或者几十篇论文,都可以塞进单次请求里处理。原来需要做RAG切片的场景,现在直接扔进去让它自己找关联。
你到底该选哪个
选Sonnet 4.6的理由:
- 主要任务是写代码、操控浏览器、处理长文档
- 跑量大,价格敏感
- 不需要博士级别的科学推理
选Opus 4.6的理由:
- 需要高强度的科学推理或学术任务
- 上下文需求极端复杂
- 不在乎价格差异,只要最好的结果
对大多数开发者和企业来说,Sonnet 4.6是现在性价比最高的Claude入口。Opus 4.6的定价是$15/$75,Sonnet 4.6是$3/$15,相同的编程能力差了5倍。这笔账一点都不难算。
参考来源:Introducing Claude Sonnet 4.6(Anthropic官方);Claude Sonnet 4.6: 79.6% SWE-bench at $3/MTok — Complete Guide(NxCode);Claude Sonnet 4.6: 1M context and stronger computer use(Gend.co)