2月5号Anthropic发了Opus 4.6,最核心的升级叫Adaptive Thinking(自适应思考)。
以前 vs 现在
以前用extended thinking,得手动设预算——让模型想10秒还是30秒,全靠开发者拍脑袋定。现在Opus 4.6自己看着办:
- 简单问题→秒回,不浪费算力
- 复杂问题→自动进入深度推理模式
- 计算资源按需分配
底层原理是模型在收到prompt的瞬间就完成了一次难度评估,然后动态调节推理深度。提供了四档手动调节(low/medium/high/max),默认high。
上下文窗口拉满
- 上下文:100万token(beta)
- 最大输出:128K token
- MRCR v2检索准确率:256K上下文下93%,拉到100万还有76%
做个对比,Sonnet 4.5在同样测试下的检索可靠性只有Opus 4.6的四分之一到九分之一。差距不是一点半点。
Agent场景提升明显
| 基准测试 | 分数 |
|---|---|
| Terminal Bench | 59.8% → 65.4% |
| OSWorld | 66.3% → 72.7% |
两项都超过了GPT-5.2和Gemini 3 Pro。
另一个狠角色是Compaction API——服务端自动压缩对话历史,理论上支持无限长对话。跑几十轮交互完成复杂编程任务的agent场景下,这个能力直接决定任务成功率。
参考来源:The New Stack Opus 4.6报道、Anthropic官方文档