Llama 4首次上MoE架构:Scout和Maverick同时登场

 · 

去年4月5号Meta放出了Llama 4,这是Llama系列第一次用MoE架构。同时发了两个型号:

Llama 4 Scout

  • 激活参数:17B / 总参数约109B
  • 专家数量:16个
  • 上下文窗口:1000万token

没错,一千万token的上下文。这个数字在当时直接刷新了开源模型的记录。

Llama 4 Maverick

  • 激活参数:17B / 总参数约400B
  • 专家数量:128个
  • 上下文窗口:100万token

128个专家,MoE层和dense层交替排列——专家只在一半的层里参与运算。

原生多模态

两个模型都通过early fusion实现了原生多模态——文本和图片不是靠外挂adapter拼接的,而是在模型内部原生融合处理。训练数据超过30万亿token,涵盖200多种语言。

性能水平

Maverick在编程、推理、多语言、长上下文、图像理解这几个维度上超过了GPT-4o和Gemini 2.0,和体量大得多的DeepSeek V3.1也能打。

Scout定位平民路线——支持4-bit和8-bit量化,单卡就能跑

还有个Llama 4 Behemoth(激活288B参数),公布了但没开源,当时还在训练中。

一个细节:Meta自己称之为”open-weight”而不是”open-source”。模型权重是公开的可以微调,但完整的训练代码和数据集并没有放出来。

参考来源:Meta AI官方博客