去年九月底,DeepSeek悄悄放出了V3.2,没有大张旗鼓,但这个版本搞了一个挺有意思的架构变动。
V3.2的核心改动不是参数规模,而是注意力机制。他们做了一个叫**DeepSeek Sparse Attention(DSA)**的东西,把传统的稠密注意力改成了稀疏版。
稀疏注意力到底省在哪里
传统注意力机制是O(L²)复杂度——序列长度翻倍,计算量翻四倍。当你的上下文窗口拉到128K token的时候,这个开销就非常可观了。
DSA的做法是:
- 先用Lightning Indexer(FP8精度)快速算出每个query和历史token之间的相关性分数
- 然后只选最相关的Top-k个token做注意力计算
- 复杂度从O(L²)降到O(Lk),k是固定的一个较小的数
简单说就是”不是每个词都需要看所有其他词,只看最重要的那些就够了”。这个思路不新鲜,但DeepSeek把它跑通了而且上了生产。
性能:没特别涨,也没特别降
这里要说实话:V3.2的benchmark跟V3.1比,整体上差不多,不是”更强”的发布。
| 任务 | V3.2结果 |
|---|---|
| MMLU-Pro | 85.0 |
| AIME 2025 | 89.3 |
| Codeforces Rating | 2121(从2046提升) |
| GPQA/HLE推理类 | 略有下降 |
编程能力确实有提升,Codeforces评分从2046涨到2121,这个幅度不小。但推理类benchmark因为”生成的推理token减少了”而略有下降——这是稀疏注意力的代价之一,生成的思维链变短了。
所以V3.2是一个效率换能力的trade-off,而不是全面超越。
便宜才是卖点
价格:输入$0.28/M,输出$0.42/M。
缓存命中:$0.028/M,比缓存未命中便宜90%。
横向对比:
| 模型 | 输入(/M) | 输出(/M) |
|---|---|---|
| GPT-5 | $1.25 | $10 |
| Claude Sonnet 4 | $3 | $15 |
| DeepSeek V3.2 | $0.28 | $0.42 |
跟GPT-5相比,成本差距接近5倍。这不是性能最强的模型,但如果你的场景是大批量调用、成本敏感的应用,V3.2的性价比确实没什么对手。
上下文窗口128K token,权重在Hugging Face上,MIT协议,商用自由。
架构细节
DSA嵌在Transformer底座里,运行于MLA的MQA模式之下。推理主要针对H800 GPU集群优化,其他硬件的实际效果可能有出入,DeepSeek说还在做更大范围的验证。
训练阶段做了统一的GRPO强化学习,把推理对齐、指令跟随和agent任务揉到了一起训。
怎么看这件事
V3.2不是”更聪明”的模型,是”更省”的模型。
稀疏注意力机制是一个工程上的取舍——用一点推理能力的损失换来大量的计算成本节省,然后把这个节省直接反映到API价格上。
对应用开发者来说,这条路线比死卷benchmark更实用。不是每个场景都需要最强的模型,但每个创业公司都在乎API成本。
DeepSeek在这件事上的思路跟OpenAI和Anthropic不一样——后者更倾向于先发最强的,再慢慢优化成本。DeepSeek是先把成本打下来,把用户量拉上来,再在上面做差异化。
这个打法在中国科技行业见惯了,但在大模型领域能跑通,还是挺值得关注的。
参考来源:DeepSeek V3.2-Exp Release: Pricing, API Costs, Context Window & Benchmarks(llm-stats.com);DeepSeek V3.2 Exp Model Specs, Costs & Benchmarks(Galaxy.ai);Top 10 Cheapest Providers for DeepSeek V3.2 in 2026(DEV Community)