MoE 资讯与深度分析

收录 MoE 相关 AI 新闻、产品动态和产业观察。本页收录 4 篇已发布文章。

去年4月5号Meta放出了Llama 4，这是Llama系列第一次用MoE架构。同时发了两个型号： Llama 4 Scout 激活参数： 17B / 总参数约109B 专家数量： 16个上下文窗口： 1000万token 没错，一千

去年7月，月之暗面直接开源了Kimi K2——一个万亿参数的MoE大模型，每个token只激活32B参数。架构亮点总参数： 1万亿每token激活： 32B 训练数据：约 15.5万亿token 上下文：128K（后续升级到256

去年8月DeepSeek放出了V3.1，这是他们第一个混合模型 ——把V3（通用）和R1（推理）的能力合进了同一个模型里。架构设计总参数： 671B ，每token激活 37B 每层256个专家，激活8个两种模式一键切换： Thin

去年12月DeepSeek发布了V3，这个模型最让同行坐不住的地方不是性能——而是成本。先看架构 V3的设计核心是 Mixture of Experts ：总参数量： 671B 每个token实际激活： 37B 每层256个专家，每