3月16日,Mistral发布了Small 4,一个看起来平平无奇的名字,背后藏着一个挺实用的产品思路——用MoE架构把原来三款独立模型全部揉进一个里面,一次部署搞定所有场景。
一个模型,三个用途
Mistral之前有三款各司其职的模型:
- Magistral:专门处理需要推理的复杂任务
- Pixtral:负责多模态图像理解
- Devstral:专门用于代码生成和开发
这三个模型如果都要用,意味着三套部署、三套调度逻辑、三倍的运维成本。Small 4直接把它们合并了。
一个模型,同时支持文字推理、图像理解、代码生成、函数调用、JSON输出,256K上下文窗口。
MoE的核心逻辑:大而不贵
Small 4的参数配置很有代表性:
| 指标 | 数值 |
|---|---|
| 总参数量 | 119B |
| Expert数量 | 128个 |
| 每次推理激活Expert数 | 4个 |
| 实际激活参数量 | 6.5B |
| 上下文窗口 | 256K |
119B看起来很吓人,但每次推理实际只用了6.5B参数——这是MoE架构的核心价值:模型知道更多,但算的时候只用一小部分。推理成本接近一个6.5B的dense模型,但能力边界要宽得多。
和Small 3比起来,端到端延迟降了40%,每秒能处理的请求量是原来的3倍。
这套逻辑和DeepSeek V3、Qwen3的做法是一条路:不是用更大的全量参数吓人,而是靠稀疏激活在效率和能力之间找平衡点。
reasoning_effort:按需开关推理能力
这是这次产品设计里比较实用的一点。
以前你需要在快速响应模型和慢速推理模型之间二选一,而且常常靠部署两个不同模型来实现。Small 4加了一个参数,允许你在API请求层面直接控制:这次要不要动用推理能力,动用多少。
简单问题给个快回答,复杂问题让它多想一会儿——同一个模型,同一个API,不用切换。这个设计对工程团队来说能省不少事。
开源协议和可用渠道
Mistral这次继续用Apache 2.0协议发布,商业场景不受限制,可以直接下载权重自部署。
当前可以用的地方:
- Mistral API和AI Studio
- Hugging Face(完整权重下载)
- NVIDIA build.nvidia.com(免费原型测试)
- NVIDIA NIM容器(生产部署)
Apache 2.0对企业来说是最干净的协议——不用担心使用限制,改了也能用,分发也没问题。
放在整个开源大模型趋势里看
最近两年,开源大模型的竞争格局变化确实很快。DeepSeek V3用MoE加低成本训练把闭源模型的护城河削了一层,阿里Qwen3用Apache协议打开局面,Meta的Llama 4也在4月刚发了MoE版本。
Mistral这次的Small 4走的是类似路径:119B总量、6.5B激活、Apache协议、把推理、多模态、代码全部打包进一个部署单元。放在两年前,这套配置只有顶级闭源模型才有,现在免费给你下载。
对于要在生产环境自建AI能力的团队来说,开源模型的选择正在从凑合用变成认真考虑。Small 4加入这个选项池,主要价值是合并了部署复杂度——不用同时维护三个模型,一个就够了。
具体适不适合你的场景,还是要跑benchmark。Mistral的官方声称对中文支持不如英文,这一点对国内团队来说要单独评估。
参考来源:119B Parameters, 6.5B Activated: Mistral Small 4 Collapses Three Open Models Into One(BaristaLabs Blog);Mistral AI Releases Mistral Small 4(MarkTechPost)