月之暗面在K2之前发布的K1.5,核心看点是用纯强化学习来提升推理能力。
技术路线
K1.5的推理增强不是靠SFT(监督微调)或RLHF的常规路线,而是更加依赖纯RL(强化学习)训练。
这和DeepSeek R1的思路类似——让模型通过大量的试错和奖励信号自己学会推理,而不是靠人类标注的”正确推理步骤”来教。
好处是:
- 不受限于人类标注数据的质量和数量
- 模型可能学到人类标注者没想到的推理策略
- 理论上更容易scale up
表现
K1.5在数学推理benchmark上的成绩达到了同期开源模型的前列水平。虽然和GPT-4o、Claude Opus这些闭源模型还有差距,但差距在可接受的范围内。
更重要的是,K1.5验证了纯RL路线在中等规模模型上的可行性。这为后续K2和K2.5的发展奠定了技术基础。
和K2的关系
K1.5像是K2的技术预研版本——验证了RL驱动推理的技术路线之后,K2直接在万亿参数规模上应用了这套方法论,同时加入了MoE架构来控制计算成本。
从K1.5到K2的迭代过程说明,月之暗面的研发路线是先验证方法论再scale up,而不是一开始就砸大参数量。这种渐进式策略对于资源有限的团队来说很务实。
参考来源:Moonshot AI技术博客