Qwen3-Max的混合推理模式:一个模型怎么做到"想不想随便你"

 · 

Qwen3系列里最有技术含量的设计之一是混合推理模式——同一个模型内置了thinking和non-thinking两种工作状态。

怎么工作的

  • Thinking mode:模型会先生成一段内部推理过程(类似Chain-of-Thought),然后基于推理结果给出回答。适合数学、逻辑、代码分析等需要深度思考的任务。
  • Non-thinking mode:跳过推理步骤,直接响应。适合日常对话、简单问答。

开发者可以通过API参数控制使用哪种模式,也可以设为自动——让模型自己判断当前任务需不需要深度思考。

为什么要做成一个模型

之前的做法通常是分开部署两个模型——一个负责快速响应,一个负责深度推理。这意味着两份部署成本、两套运维。

混合模式的好处是一套部署搞定两种需求。对于中小企业和预算有限的团队来说,这个成本差异很实际。

技术上怎么实现

Qwen3用的方法是在训练阶段同时优化两种目标:

  1. 在需要推理的数据上训练thinking能力
  2. 在直接对话的数据上训练快速响应能力

模型学会了根据输入的特征自动判断”这个问题需不需要想一想”。

和其他家的对比

  • DeepSeek V3.1:也是双模式,think/non-think
  • Claude Opus 4.6:自适应思考(四档可调)
  • GPT-5.4 Thinking:独立的thinking版本

大家殊途同归,都意识到了”一个模型覆盖两种使用场景”是用户真正需要的。

Qwen3-Max作为系列的旗舰版,在thinking mode下的数学和代码成绩可以和DeepSeek R1正面竞争。non-thinking mode下的响应速度则快得多。这种灵活性是纯推理模型做不到的。

参考来源:阿里云官方发布