Opus 4.6来了:模型自己决定"要不要深度思考"

 · 

2月5号Anthropic发了Opus 4.6,最核心的升级叫Adaptive Thinking(自适应思考)

以前 vs 现在

以前用extended thinking,得手动设预算——让模型想10秒还是30秒,全靠开发者拍脑袋定。现在Opus 4.6自己看着办

  • 简单问题→秒回,不浪费算力
  • 复杂问题→自动进入深度推理模式
  • 计算资源按需分配

底层原理是模型在收到prompt的瞬间就完成了一次难度评估,然后动态调节推理深度。提供了四档手动调节(low/medium/high/max),默认high。

上下文窗口拉满

  • 上下文:100万token(beta)
  • 最大输出:128K token
  • MRCR v2检索准确率:256K上下文下93%,拉到100万还有76%

做个对比,Sonnet 4.5在同样测试下的检索可靠性只有Opus 4.6的四分之一到九分之一。差距不是一点半点。

Agent场景提升明显

基准测试 分数
Terminal Bench 59.8% → 65.4%
OSWorld 66.3% → 72.7%

两项都超过了GPT-5.2和Gemini 3 Pro。

另一个狠角色是Compaction API——服务端自动压缩对话历史,理论上支持无限长对话。跑几十轮交互完成复杂编程任务的agent场景下,这个能力直接决定任务成功率。

参考来源:The New Stack Opus 4.6报道、Anthropic官方文档