⚡ News · Cocoloop
首页 Claude GPT Gemini DeepSeek 开源模型 全部标签 归档

#MoE

共 4 篇文章

Llama 2026-04-07

Llama 4首次上MoE架构:Scout和Maverick同时登场

去年4月5号Meta放出了Llama 4,这是Llama系列第一次用MoE架构。同时发了两个型号: Llama 4 Scout 激活参数:17B / 总参数约109B 专家数量:16个 上下文窗口:1000万token 没错,一千

Kimi 2026-04-07

Kimi K2开源了一个万亿参数的MoE模型,国产开源卷出新高度

去年7月,月之暗面直接开源了Kimi K2——一个万亿参数的MoE大模型,每个token只激活32B参数。 架构亮点 总参数:1万亿 每token激活:32B 训练数据:约15.5万亿token 上下文:128K(后续升级到256K) 优化

DeepSeek 2026-04-07

DeepSeek V3.1:把通用模型和推理模型揉到一起是什么体验

去年8月DeepSeek放出了V3.1,这是他们第一个混合模型——把V3(通用)和R1(推理)的能力合进了同一个模型里。 架构设计 总参数:671B,每token激活37B 每层256个专家,激活8个 两种模式一键切换: Think mod

DeepSeek 2026-04-07

DeepSeek V3:671B参数只激活37B,MoE架构的教科书级操作

去年12月DeepSeek发布了V3,这个模型最让同行坐不住的地方不是性能——而是成本。 先看架构V3的设计核心是Mixture of Experts: 总参数量:671B 每个token实际激活:37B 每层256个专家,每次选8个 就好

⚡ News · Cocoloop

AI前沿资讯与深度分析,覆盖大模型、开源社区、产业动态。每日自动抓取英文原版信息,由AI辅助二次创作为中文内容。

模型资讯

  • Claude
  • GPT / OpenAI
  • Gemini
  • DeepSeek
  • Qwen

主题

  • 开源模型
  • AI编程
  • Agent
  • 全部标签

站点

  • 首页
  • 文章归档
  • Sitemap
  • RSS 订阅
  • robots.txt

友情链接

  • Cocoloop 主站
  • 问答站
  • Hermes 指南

© 2026 News · Cocoloop — AI前沿资讯

部分内容由AI辅助整理,引用来源保留原文链接。转载请注明出处。