月之暗面上周把Kimi K2.6完整版推出来了,这不是什么”代码预览”测试版,是完整的生产级模型。之前Code Preview已经引发了一波关注,但完整版的技术规格和跑分结果出来以后,事情比很多人预期的更有意思。
HLE-Full 54.0,开源第一是真的拿到了
HLE(Humanity’s Last Exam)是今年AI评测里含金量最高的榜单之一,2500道博士级别的题横跨100多个学术领域,不是那种一通few-shot就能糊弄过去的。
Kimi K2.6的成绩:
| 模型 | HLE-Full(含工具) |
|---|---|
| Kimi K2.6 | 54.0 |
| Claude Opus 4.6 | 53.0 |
| GPT-5.4 | 52.1 |
这个差距不算大,但方向很清晰:开源模型在顶尖学术推理榜上压过了两个闭源旗舰。SWE-Bench Pro 58.6,BrowseComp 83.2,CharXiv(含Python)86.7,数学视觉推理 93.2。
月之暗面在发布说明里用了”far more execution and imagination”来描述这个版本的提升。
1万亿参数,但只激活320亿
这是MoE架构的核心逻辑。Kimi K2.6是一个1T参数的Mixture-of-Experts模型,每次推理只激活32B(320亿)参数。384个专家分组管理,每次回答调用8个路由专家加1个共享专家。好处是双向的:
- 训练侧:总参数量大,学到的知识多
- 推理侧:激活参数少,计算成本可控
注意力机制用的是MLA(Multi-Head Latent Attention),把处理过的数据压缩成轻量的数学表示,减少KV cache占用。激活函数是SwiGLU,比上一代更硬件友好。视觉模块是单独的400M参数编码器,支持图像和多媒体输入。
上下文窗口256K,还支持INT4量化,本地部署的路子也走通了。
300个Agent并行,12小时连续运行
这是Kimi K2.6真正让开发者感兴趣的部分:
- 最多支持300个子Agent并行运行
- 单次任务最多4000+工具调用
- 持续运行时间可以到12小时不中断
为了支持这种规模的多Agent协作,月之暗面引入了”Claw Groups”——把大任务分拆成可以让人类和AI协同执行的子组。人在关键决策节点介入,AI负责中间过程的大量执行操作,逻辑上类似工厂流水线的人机分工。
对企业级应用来说这个设计很实际。真实工作流不是”完全自动化”或”完全人工”二选一,而是需要人在关键节点监督,AI在中间过程大量干活。
开源生态首日就打通了
上线当天就支持了vLLM、OpenRouter、Cloudflare Workers AI和MLX,这背后是提前几个月就开始的生态对接工作。
- MLX:Apple Silicon上能跑
- OpenRouter:API聚合平台直接接入
- vLLM:高吞吐推理部署无障碍
- Cloudflare Workers AI:边缘推理有了出路
首日完成这些集成不是偶然,说明月之暗面认真做了发布前的工程准备。
开源赛道在认真追了
去年还有人说”开源模型和GPT-4有明显差距”,今年这个话已经没法说了。
Kimi K2.6在HLE上压过了Claude Opus 4.6和GPT-5.4。DeepSeek V3.2把注意力改成稀疏结构,成本砍了一半。Qwen3.6-35B在MacBook上能跑,SWE-bench 73.4%。
开源不再是闭源的低配平替,而是在特定评测维度上反过来领跑了。对企业来说,这意味着私有部署、数据保密、成本控制这些需求终于有了旗舰级的可用选项。
评测成绩和生产实战之间当然还有距离。HLE的54.0和日常的代码调试、长文档理解、多轮对话是两件事。但方向已经很明确:月之暗面在认真打这场仗,这一局赢了。
参考来源:Moonshot AI releases Kimi-K2.6 model with 1T parameters, attention optimizations(SiliconANGLE);[AINews] Moonshot Kimi K2.6: the world's leading Open Model refreshes to catch up to Opus 4.6(Latent Space)