Kimi K2.6打赢了这一局：HLE拿了开源第一，384个专家、300个Agent同时干活 - News

月之暗面上周把Kimi K2.6完整版推出来了，这不是什么”代码预览”测试版，是完整的生产级模型。之前Code Preview已经引发了一波关注，但完整版的技术规格和跑分结果出来以后，事情比很多人预期的更有意思。

HLE-Full 54.0，开源第一是真的拿到了

HLE（Humanity’s Last Exam）是今年AI评测里含金量最高的榜单之一，2500道博士级别的题横跨100多个学术领域，不是那种一通few-shot就能糊弄过去的。

Kimi K2.6的成绩：

模型	HLE-Full（含工具）
Kimi K2.6	54.0
Claude Opus 4.6	53.0
GPT-5.4	52.1

这个差距不算大，但方向很清晰：开源模型在顶尖学术推理榜上压过了两个闭源旗舰。SWE-Bench Pro 58.6，BrowseComp 83.2，CharXiv（含Python）86.7，数学视觉推理 93.2。

月之暗面在发布说明里用了”far more execution and imagination”来描述这个版本的提升。

1万亿参数，但只激活320亿

这是MoE架构的核心逻辑。Kimi K2.6是一个1T参数的Mixture-of-Experts模型，每次推理只激活32B（320亿）参数。384个专家分组管理，每次回答调用8个路由专家加1个共享专家。好处是双向的：

训练侧：总参数量大，学到的知识多
推理侧：激活参数少，计算成本可控

注意力机制用的是MLA（Multi-Head Latent Attention），把处理过的数据压缩成轻量的数学表示，减少KV cache占用。激活函数是SwiGLU，比上一代更硬件友好。视觉模块是单独的400M参数编码器，支持图像和多媒体输入。

上下文窗口256K，还支持INT4量化，本地部署的路子也走通了。

300个Agent并行，12小时连续运行

这是Kimi K2.6真正让开发者感兴趣的部分：

最多支持300个子Agent并行运行
单次任务最多4000+工具调用
持续运行时间可以到12小时不中断

为了支持这种规模的多Agent协作，月之暗面引入了”Claw Groups”——把大任务分拆成可以让人类和AI协同执行的子组。人在关键决策节点介入，AI负责中间过程的大量执行操作，逻辑上类似工厂流水线的人机分工。

对企业级应用来说这个设计很实际。真实工作流不是”完全自动化”或”完全人工”二选一，而是需要人在关键节点监督，AI在中间过程大量干活。

开源生态首日就打通了

上线当天就支持了vLLM、OpenRouter、Cloudflare Workers AI和MLX，这背后是提前几个月就开始的生态对接工作。

MLX：Apple Silicon上能跑
OpenRouter：API聚合平台直接接入
vLLM：高吞吐推理部署无障碍
Cloudflare Workers AI：边缘推理有了出路

首日完成这些集成不是偶然，说明月之暗面认真做了发布前的工程准备。

开源赛道在认真追了

去年还有人说”开源模型和GPT-4有明显差距”，今年这个话已经没法说了。

Kimi K2.6在HLE上压过了Claude Opus 4.6和GPT-5.4。DeepSeek V3.2把注意力改成稀疏结构，成本砍了一半。Qwen3.6-35B在MacBook上能跑，SWE-bench 73.4%。

开源不再是闭源的低配平替，而是在特定评测维度上反过来领跑了。对企业来说，这意味着私有部署、数据保密、成本控制这些需求终于有了旗舰级的可用选项。

评测成绩和生产实战之间当然还有距离。HLE的54.0和日常的代码调试、长文档理解、多轮对话是两件事。但方向已经很明确：月之暗面在认真打这场仗，这一局赢了。

参考来源：Moonshot AI releases Kimi-K2.6 model with 1T parameters, attention optimizations（SiliconANGLE）；[AINews] Moonshot Kimi K2.6: the world's leading Open Model refreshes to catch up to Opus 4.6（Latent Space）