上下文窗口军备竞赛:100万token够用了吗

 · 

两年前主流模型的上下文窗口还在4K到8K这个量级,现在百万级token已经是旗舰模型的标配了。

当前格局

  • Gemini 2.5 Pro:100万token(可扩展到200万)
  • Claude Opus 4.6:100万token(beta)
  • GPT-5.4:100万token(实验性支持)
  • Llama 4 Scout:1000万token
  • Kimi K2:128K → 256K

Llama 4 Scout的1000万token看起来很猛,但实际使用中那么长的上下文能保持多少信息检索精度是个大问号。

长了就好吗?

上下文长度和实际可用性是两回事。关键指标是长上下文检索准确率——模型在超长文本中还能不能准确找到需要的信息。

Opus 4.6的数据是:256K上下文下8-needle检索准确率93%,拉到100万token降到76%。听起来76%不算低,但意味着你塞进去的信息有将近四分之一可能被”遗忘”。

另一个现实问题是成本。100万token的输入不是免费的——按当前的API定价,一次性塞满上下文的费用可以是几美元到几十美元。如果不加控制,一个agent跑几十轮对话,token账单会很吓人。

Compaction技术

Anthropic的Compaction API和GPT-5.4的auto_compact机制在尝试解决这个问题:当上下文快满了,自动压缩早期内容保留关键信息。理论上可以支持”无限长对话”,实际效果取决于压缩过程中信息损失有多少。

更长的上下文窗口本身不是目的,在长上下文中保持信息的精确召回才是。 这场军备竞赛的终点不是”谁的数字大”,而是”谁在超长上下文下还能保持靠谱”。

参考来源:Anthropic官方文档、各模型发布报告