DeepSeek V3.2把注意力改成稀疏的:推理成本直接砍一半,MIT开源

去年九月底,DeepSeek悄悄放出了V3.2,没有大张旗鼓,但这个版本搞了一个挺有意思的架构变动。

V3.2的核心改动不是参数规模,而是注意力机制。他们做了一个叫**DeepSeek Sparse Attention(DSA)**的东西,把传统的稠密注意力改成了稀疏版。

稀疏注意力到底省在哪里

传统注意力机制是O(L²)复杂度——序列长度翻倍,计算量翻四倍。当你的上下文窗口拉到128K token的时候,这个开销就非常可观了。

DSA的做法是:

  • 先用Lightning Indexer(FP8精度)快速算出每个query和历史token之间的相关性分数
  • 然后只选最相关的Top-k个token做注意力计算
  • 复杂度从O(L²)降到O(Lk),k是固定的一个较小的数

简单说就是”不是每个词都需要看所有其他词,只看最重要的那些就够了”。这个思路不新鲜,但DeepSeek把它跑通了而且上了生产。

性能:没特别涨,也没特别降

这里要说实话:V3.2的benchmark跟V3.1比,整体上差不多,不是”更强”的发布。

任务 V3.2结果
MMLU-Pro 85.0
AIME 2025 89.3
Codeforces Rating 2121(从2046提升)
GPQA/HLE推理类 略有下降

编程能力确实有提升,Codeforces评分从2046涨到2121,这个幅度不小。但推理类benchmark因为”生成的推理token减少了”而略有下降——这是稀疏注意力的代价之一,生成的思维链变短了。

所以V3.2是一个效率换能力的trade-off,而不是全面超越。

便宜才是卖点

价格:输入$0.28/M,输出$0.42/M

缓存命中:$0.028/M,比缓存未命中便宜90%。

横向对比:

模型 输入(/M) 输出(/M)
GPT-5 $1.25 $10
Claude Sonnet 4 $3 $15
DeepSeek V3.2 $0.28 $0.42

跟GPT-5相比,成本差距接近5倍。这不是性能最强的模型,但如果你的场景是大批量调用、成本敏感的应用,V3.2的性价比确实没什么对手。

上下文窗口128K token,权重在Hugging Face上,MIT协议,商用自由。

架构细节

DSA嵌在Transformer底座里,运行于MLA的MQA模式之下。推理主要针对H800 GPU集群优化,其他硬件的实际效果可能有出入,DeepSeek说还在做更大范围的验证。

训练阶段做了统一的GRPO强化学习,把推理对齐、指令跟随和agent任务揉到了一起训。

怎么看这件事

V3.2不是”更聪明”的模型,是”更省”的模型。

稀疏注意力机制是一个工程上的取舍——用一点推理能力的损失换来大量的计算成本节省,然后把这个节省直接反映到API价格上。

对应用开发者来说,这条路线比死卷benchmark更实用。不是每个场景都需要最强的模型,但每个创业公司都在乎API成本。

DeepSeek在这件事上的思路跟OpenAI和Anthropic不一样——后者更倾向于先发最强的,再慢慢优化成本。DeepSeek是先把成本打下来,把用户量拉上来,再在上面做差异化。

这个打法在中国科技行业见惯了,但在大模型领域能跑通,还是挺值得关注的。

参考来源:DeepSeek V3.2-Exp Release: Pricing, API Costs, Context Window & Benchmarks(llm-stats.com);DeepSeek V3.2 Exp Model Specs, Costs & Benchmarks(Galaxy.ai);Top 10 Cheapest Providers for DeepSeek V3.2 in 2026(DEV Community)