DeepSeek V3.2把注意力改成稀疏的：推理成本直接砍一半，MIT开源 - News

去年九月底，DeepSeek悄悄放出了V3.2，没有大张旗鼓，但这个版本搞了一个挺有意思的架构变动。

V3.2的核心改动不是参数规模，而是注意力机制。他们做了一个叫**DeepSeek Sparse Attention（DSA）**的东西，把传统的稠密注意力改成了稀疏版。

稀疏注意力到底省在哪里

传统注意力机制是O(L²)复杂度——序列长度翻倍，计算量翻四倍。当你的上下文窗口拉到128K token的时候，这个开销就非常可观了。

DSA的做法是：

先用Lightning Indexer（FP8精度）快速算出每个query和历史token之间的相关性分数
然后只选最相关的Top-k个token做注意力计算
复杂度从O(L²)降到O(Lk)，k是固定的一个较小的数

简单说就是”不是每个词都需要看所有其他词，只看最重要的那些就够了”。这个思路不新鲜，但DeepSeek把它跑通了而且上了生产。

性能：没特别涨，也没特别降

这里要说实话：V3.2的benchmark跟V3.1比，整体上差不多，不是”更强”的发布。

任务	V3.2结果
MMLU-Pro	85.0
AIME 2025	89.3
Codeforces Rating	2121（从2046提升）
GPQA/HLE推理类	略有下降

编程能力确实有提升，Codeforces评分从2046涨到2121，这个幅度不小。但推理类benchmark因为”生成的推理token减少了”而略有下降——这是稀疏注意力的代价之一，生成的思维链变短了。

所以V3.2是一个效率换能力的trade-off，而不是全面超越。

便宜才是卖点

价格：输入$0.28/M，输出$0.42/M。

缓存命中：$0.028/M，比缓存未命中便宜90%。

横向对比：

模型	输入（/M）	输出（/M）
GPT-5	$1.25	$10
Claude Sonnet 4	$3	$15
DeepSeek V3.2	$0.28	$0.42

跟GPT-5相比，成本差距接近5倍。这不是性能最强的模型，但如果你的场景是大批量调用、成本敏感的应用，V3.2的性价比确实没什么对手。

上下文窗口128K token，权重在Hugging Face上，MIT协议，商用自由。

架构细节

DSA嵌在Transformer底座里，运行于MLA的MQA模式之下。推理主要针对H800 GPU集群优化，其他硬件的实际效果可能有出入，DeepSeek说还在做更大范围的验证。

训练阶段做了统一的GRPO强化学习，把推理对齐、指令跟随和agent任务揉到了一起训。

怎么看这件事

V3.2不是”更聪明”的模型，是”更省”的模型。

稀疏注意力机制是一个工程上的取舍——用一点推理能力的损失换来大量的计算成本节省，然后把这个节省直接反映到API价格上。

对应用开发者来说，这条路线比死卷benchmark更实用。不是每个场景都需要最强的模型，但每个创业公司都在乎API成本。

DeepSeek在这件事上的思路跟OpenAI和Anthropic不一样——后者更倾向于先发最强的，再慢慢优化成本。DeepSeek是先把成本打下来，把用户量拉上来，再在上面做差异化。

这个打法在中国科技行业见惯了，但在大模型领域能跑通，还是挺值得关注的。

参考来源：DeepSeek V3.2-Exp Release: Pricing, API Costs, Context Window & Benchmarks（llm-stats.com）；DeepSeek V3.2 Exp Model Specs, Costs & Benchmarks（Galaxy.ai）；Top 10 Cheapest Providers for DeepSeek V3.2 in 2026（DEV Community）