Kimi K1.5：强化学习驱动推理能力的一次技术验证

月之暗面在K2之前发布的K1.5，核心看点是用纯强化学习来提升推理能力。

技术路线

K1.5的推理增强不是靠SFT（监督微调）或RLHF的常规路线，而是更加依赖纯RL（强化学习）训练。

这和DeepSeek R1的思路类似——让模型通过大量的试错和奖励信号自己学会推理，而不是靠人类标注的”正确推理步骤”来教。

好处是：

K1.5在数学推理benchmark上的成绩达到了同期开源模型的前列水平。虽然和GPT-4o、Claude Opus这些闭源模型还有差距，但差距在可接受的范围内。

更重要的是，K1.5验证了纯RL路线在中等规模模型上的可行性。这为后续K2和K2.5的发展奠定了技术基础。

K1.5像是K2的技术预研版本——验证了RL驱动推理的技术路线之后，K2直接在万亿参数规模上应用了这套方法论，同时加入了MoE架构来控制计算成本。

从K1.5到K2的迭代过程说明，月之暗面的研发路线是先验证方法论再scale up，而不是一开始就砸大参数量。这种渐进式策略对于资源有限的团队来说很务实。

参考来源：Moonshot AI技术博客