“Thinking model”在2025年彻底成了主流概念。几乎每家头部AI公司都推出了自己的推理模型,核心卖点都一样:模型在回答之前先在内部”想一想”。
各家路线
OpenAI o系列:最早把”思考”概念产品化的。o1到o3一路迭代,走的是”显式推理链+隐藏思考过程”路线。用户看到的是最终答案,中间的思考过程不对外暴露。
DeepSeek R1:开源路线的推理模型代表。强化学习驱动,思考过程是透明的(可以看到完整的Chain-of-Thought)。32B蒸馏版在多项benchmark上就能和o1-mini打平,成本优势巨大。
Gemini 2.5 Pro:Google的thinking model,内部推理后响应。在数学和科学推理上表现突出(AIME 2024: 92%),多模态推理是差异化优势。
Claude Opus 4.6:自适应推理,模型自动判断需要多深度的思考。四档可调,不浪费算力。
核心trade-off
所有推理模型都面对同一个问题:推理深度 vs 响应速度。
想得越深、答案越准,但等待时间越长、成本越高。对于简单的日常对话,开启深度推理纯粹是在浪费钱和时间。
各家的解法略有不同:
- OpenAI:提供不同等级的模型(o1-mini到o3-pro)
- DeepSeek V3.1:同一模型内think/non-think双模式
- Anthropic:自适应思考,模型自己决定想多深
- Qwen3:也是mixing模式,thinking和non-thinking一个模型搞定
开源 vs 闭源
推理能力原本被认为是闭源模型的护城河。R1的出现打破了这个格局——开源推理模型已经追平了闭源模型的主力产品。这意味着纯粹的推理能力越来越难作为付费壁垒。
下一步的竞争已经从”谁更能想”转向”谁想得又快又省”。
参考来源:各模型官方发布、The Decoder对比分析