Llama 4首次上MoE架构：Scout和Maverick同时登场

去年4月5号Meta放出了Llama 4，这是Llama系列第一次用MoE架构。同时发了两个型号：

Llama 4 Scout

没错，一千万token的上下文。这个数字在当时直接刷新了开源模型的记录。

128个专家，MoE层和dense层交替排列——专家只在一半的层里参与运算。

两个模型都通过early fusion实现了原生多模态——文本和图片不是靠外挂adapter拼接的，而是在模型内部原生融合处理。训练数据超过30万亿token，涵盖200多种语言。

Maverick在编程、推理、多语言、长上下文、图像理解这几个维度上超过了GPT-4o和Gemini 2.0，和体量大得多的DeepSeek V3.1也能打。

Scout定位平民路线——支持4-bit和8-bit量化，单卡就能跑。

还有个Llama 4 Behemoth（激活288B参数），公布了但没开源，当时还在训练中。

一个细节：Meta自己称之为”open-weight”而不是”open-source”。模型权重是公开的可以微调，但完整的训练代码和数据集并没有放出来。

参考来源：Meta AI官方博客