Llama 4首次上MoE架构:Scout和Maverick同时登场
去年4月5号Meta放出了Llama 4,这是Llama系列第一次用MoE架构。同时发了两个型号: Llama 4 Scout 激活参数:17B / 总参数约109B 专家数量:16个 上下文窗口:1000万token 没错,一千
共 4 篇文章
去年4月5号Meta放出了Llama 4,这是Llama系列第一次用MoE架构。同时发了两个型号: Llama 4 Scout 激活参数:17B / 总参数约109B 专家数量:16个 上下文窗口:1000万token 没错,一千
去年7月,月之暗面直接开源了Kimi K2——一个万亿参数的MoE大模型,每个token只激活32B参数。 架构亮点 总参数:1万亿 每token激活:32B 训练数据:约15.5万亿token 上下文:128K(后续升级到256K) 优化
去年8月DeepSeek放出了V3.1,这是他们第一个混合模型——把V3(通用)和R1(推理)的能力合进了同一个模型里。 架构设计 总参数:671B,每token激活37B 每层256个专家,激活8个 两种模式一键切换: Think mod
去年12月DeepSeek发布了V3,这个模型最让同行坐不住的地方不是性能——而是成本。 先看架构V3的设计核心是Mixture of Experts: 总参数量:671B 每个token实际激活:37B 每层256个专家,每次选8个 就好