去年7月,月之暗面直接开源了Kimi K2——一个万亿参数的MoE大模型,每个token只激活32B参数。
架构亮点
- 总参数:1万亿
- 每token激活:32B
- 训练数据:约15.5万亿token
- 上下文:128K(后续升级到256K)
- 优化器:Muon
代码和权重都用的Modified MIT License放出来,在前沿规模的开源模型里算是最宽松的授权之一了。
性能水平
在开源非推理模型(non-thinking)里,K2在编程benchmark上排第一,多项任务超过了GPT-4.1和Claude Opus 4。agent能力、工具调用、STEM推理是它的强项。
两个版本可选:
- K2-Base:给想自己微调的研究者用
- K2-Instruct:通用对话和agent场景,开箱即用
后续迭代
9月份更新了K2-Instruct-0905版本,编程任务性能再提一波,上下文窗口从128K扩到256K。
今年1月又放出了K2.5——在K2-Base基础上用大约15万亿混合视觉和文本token做了持续预训练,原生支持多模态。还带了一个叫Agent Swarm的功能,可以把复杂任务拆解成多个并行子任务。
从K2到K2.5这个迭代速度来看,月之暗面在开源路线上走得相当激进。万亿参数开源这件事,放在两年前大家会觉得是天方夜谭。
参考来源:Moonshot AI官方技术博客、Hugging Face模型页面