119B参数只激活6.5B：Mistral用一个MoE模型干掉了三个，还Apache协议开源了 - News

3月16日，Mistral发布了Small 4，一个看起来平平无奇的名字，背后藏着一个挺实用的产品思路——用MoE架构把原来三款独立模型全部揉进一个里面，一次部署搞定所有场景。

一个模型，三个用途

Mistral之前有三款各司其职的模型：

Magistral：专门处理需要推理的复杂任务
Pixtral：负责多模态图像理解
Devstral：专门用于代码生成和开发

这三个模型如果都要用，意味着三套部署、三套调度逻辑、三倍的运维成本。Small 4直接把它们合并了。

一个模型，同时支持文字推理、图像理解、代码生成、函数调用、JSON输出，256K上下文窗口。

MoE的核心逻辑：大而不贵

Small 4的参数配置很有代表性：

指标	数值
总参数量	119B
Expert数量	128个
每次推理激活Expert数	4个
实际激活参数量	6.5B
上下文窗口	256K

119B看起来很吓人，但每次推理实际只用了6.5B参数——这是MoE架构的核心价值：模型知道更多，但算的时候只用一小部分。推理成本接近一个6.5B的dense模型，但能力边界要宽得多。

和Small 3比起来，端到端延迟降了40%，每秒能处理的请求量是原来的3倍。

这套逻辑和DeepSeek V3、Qwen3的做法是一条路：不是用更大的全量参数吓人，而是靠稀疏激活在效率和能力之间找平衡点。

reasoning_effort：按需开关推理能力

这是这次产品设计里比较实用的一点。

以前你需要在快速响应模型和慢速推理模型之间二选一，而且常常靠部署两个不同模型来实现。Small 4加了一个参数，允许你在API请求层面直接控制：这次要不要动用推理能力，动用多少。

简单问题给个快回答，复杂问题让它多想一会儿——同一个模型，同一个API，不用切换。这个设计对工程团队来说能省不少事。

开源协议和可用渠道

Mistral这次继续用Apache 2.0协议发布，商业场景不受限制，可以直接下载权重自部署。

当前可以用的地方：

Mistral API和AI Studio
Hugging Face（完整权重下载）
NVIDIA build.nvidia.com（免费原型测试）
NVIDIA NIM容器（生产部署）

Apache 2.0对企业来说是最干净的协议——不用担心使用限制，改了也能用，分发也没问题。

放在整个开源大模型趋势里看

最近两年，开源大模型的竞争格局变化确实很快。DeepSeek V3用MoE加低成本训练把闭源模型的护城河削了一层，阿里Qwen3用Apache协议打开局面，Meta的Llama 4也在4月刚发了MoE版本。

Mistral这次的Small 4走的是类似路径：119B总量、6.5B激活、Apache协议、把推理、多模态、代码全部打包进一个部署单元。放在两年前，这套配置只有顶级闭源模型才有，现在免费给你下载。

对于要在生产环境自建AI能力的团队来说，开源模型的选择正在从凑合用变成认真考虑。Small 4加入这个选项池，主要价值是合并了部署复杂度——不用同时维护三个模型，一个就够了。

具体适不适合你的场景，还是要跑benchmark。Mistral的官方声称对中文支持不如英文，这一点对国内团队来说要单独评估。

参考来源：119B Parameters, 6.5B Activated: Mistral Small 4 Collapses Three Open Models Into One（BaristaLabs Blog）；Mistral AI Releases Mistral Small 4（MarkTechPost）