Qwen3系列里最有技术含量的设计之一是混合推理模式——同一个模型内置了thinking和non-thinking两种工作状态。
怎么工作的
- Thinking mode:模型会先生成一段内部推理过程(类似Chain-of-Thought),然后基于推理结果给出回答。适合数学、逻辑、代码分析等需要深度思考的任务。
- Non-thinking mode:跳过推理步骤,直接响应。适合日常对话、简单问答。
开发者可以通过API参数控制使用哪种模式,也可以设为自动——让模型自己判断当前任务需不需要深度思考。
为什么要做成一个模型
之前的做法通常是分开部署两个模型——一个负责快速响应,一个负责深度推理。这意味着两份部署成本、两套运维。
混合模式的好处是一套部署搞定两种需求。对于中小企业和预算有限的团队来说,这个成本差异很实际。
技术上怎么实现
Qwen3用的方法是在训练阶段同时优化两种目标:
- 在需要推理的数据上训练thinking能力
- 在直接对话的数据上训练快速响应能力
模型学会了根据输入的特征自动判断”这个问题需不需要想一想”。
和其他家的对比
- DeepSeek V3.1:也是双模式,think/non-think
- Claude Opus 4.6:自适应思考(四档可调)
- GPT-5.4 Thinking:独立的thinking版本
大家殊途同归,都意识到了”一个模型覆盖两种使用场景”是用户真正需要的。
Qwen3-Max作为系列的旗舰版,在thinking mode下的数学和代码成绩可以和DeepSeek R1正面竞争。non-thinking mode下的响应速度则快得多。这种灵活性是纯推理模型做不到的。
参考来源:阿里云官方发布