去年4月5号Meta放出了Llama 4,这是Llama系列第一次用MoE架构。同时发了两个型号:
Llama 4 Scout
- 激活参数:17B / 总参数约109B
- 专家数量:16个
- 上下文窗口:1000万token
没错,一千万token的上下文。这个数字在当时直接刷新了开源模型的记录。
Llama 4 Maverick
- 激活参数:17B / 总参数约400B
- 专家数量:128个
- 上下文窗口:100万token
128个专家,MoE层和dense层交替排列——专家只在一半的层里参与运算。
原生多模态
两个模型都通过early fusion实现了原生多模态——文本和图片不是靠外挂adapter拼接的,而是在模型内部原生融合处理。训练数据超过30万亿token,涵盖200多种语言。
性能水平
Maverick在编程、推理、多语言、长上下文、图像理解这几个维度上超过了GPT-4o和Gemini 2.0,和体量大得多的DeepSeek V3.1也能打。
Scout定位平民路线——支持4-bit和8-bit量化,单卡就能跑。
还有个Llama 4 Behemoth(激活288B参数),公布了但没开源,当时还在训练中。
一个细节:Meta自己称之为”open-weight”而不是”open-source”。模型权重是公开的可以微调,但完整的训练代码和数据集并没有放出来。
参考来源:Meta AI官方博客