上下文窗口军备竞赛：100万token够用了吗

两年前主流模型的上下文窗口还在4K到8K这个量级，现在百万级token已经是旗舰模型的标配了。

当前格局

Llama 4 Scout的1000万token看起来很猛，但实际使用中那么长的上下文能保持多少信息检索精度是个大问号。

上下文长度和实际可用性是两回事。关键指标是长上下文检索准确率——模型在超长文本中还能不能准确找到需要的信息。

Opus 4.6的数据是：256K上下文下8-needle检索准确率93%，拉到100万token降到76%。听起来76%不算低，但意味着你塞进去的信息有将近四分之一可能被”遗忘”。

另一个现实问题是成本。100万token的输入不是免费的——按当前的API定价，一次性塞满上下文的费用可以是几美元到几十美元。如果不加控制，一个agent跑几十轮对话，token账单会很吓人。

Anthropic的Compaction API和GPT-5.4的auto_compact机制在尝试解决这个问题：当上下文快满了，自动压缩早期内容保留关键信息。理论上可以支持”无限长对话”，实际效果取决于压缩过程中信息损失有多少。

更长的上下文窗口本身不是目的，在长上下文中保持信息的精确召回才是。 这场军备竞赛的终点不是”谁的数字大”，而是”谁在超长上下文下还能保持靠谱”。

参考来源：Anthropic官方文档、各模型发布报告