推理模型大横评:o系列、R1、Gemini Thinking谁更能"想"

 · 

“Thinking model”在2025年彻底成了主流概念。几乎每家头部AI公司都推出了自己的推理模型,核心卖点都一样:模型在回答之前先在内部”想一想”

各家路线

OpenAI o系列:最早把”思考”概念产品化的。o1到o3一路迭代,走的是”显式推理链+隐藏思考过程”路线。用户看到的是最终答案,中间的思考过程不对外暴露。

DeepSeek R1:开源路线的推理模型代表。强化学习驱动,思考过程是透明的(可以看到完整的Chain-of-Thought)。32B蒸馏版在多项benchmark上就能和o1-mini打平,成本优势巨大。

Gemini 2.5 Pro:Google的thinking model,内部推理后响应。在数学和科学推理上表现突出(AIME 2024: 92%),多模态推理是差异化优势。

Claude Opus 4.6:自适应推理,模型自动判断需要多深度的思考。四档可调,不浪费算力。

核心trade-off

所有推理模型都面对同一个问题:推理深度 vs 响应速度

想得越深、答案越准,但等待时间越长、成本越高。对于简单的日常对话,开启深度推理纯粹是在浪费钱和时间。

各家的解法略有不同:

  • OpenAI:提供不同等级的模型(o1-mini到o3-pro)
  • DeepSeek V3.1:同一模型内think/non-think双模式
  • Anthropic:自适应思考,模型自己决定想多深
  • Qwen3:也是mixing模式,thinking和non-thinking一个模型搞定

开源 vs 闭源

推理能力原本被认为是闭源模型的护城河。R1的出现打破了这个格局——开源推理模型已经追平了闭源模型的主力产品。这意味着纯粹的推理能力越来越难作为付费壁垒。

下一步的竞争已经从”谁更能想”转向”谁想得又快又省”。

参考来源:各模型官方发布、The Decoder对比分析