Kimi K2.6打赢了这一局:HLE拿了开源第一,384个专家、300个Agent同时干活

月之暗面上周把Kimi K2.6完整版推出来了,这不是什么”代码预览”测试版,是完整的生产级模型。之前Code Preview已经引发了一波关注,但完整版的技术规格和跑分结果出来以后,事情比很多人预期的更有意思。

HLE-Full 54.0,开源第一是真的拿到了

HLE(Humanity’s Last Exam)是今年AI评测里含金量最高的榜单之一,2500道博士级别的题横跨100多个学术领域,不是那种一通few-shot就能糊弄过去的。

Kimi K2.6的成绩:

模型 HLE-Full(含工具)
Kimi K2.6 54.0
Claude Opus 4.6 53.0
GPT-5.4 52.1

这个差距不算大,但方向很清晰:开源模型在顶尖学术推理榜上压过了两个闭源旗舰。SWE-Bench Pro 58.6,BrowseComp 83.2,CharXiv(含Python)86.7,数学视觉推理 93.2。

月之暗面在发布说明里用了”far more execution and imagination”来描述这个版本的提升。

1万亿参数,但只激活320亿

这是MoE架构的核心逻辑。Kimi K2.6是一个1T参数的Mixture-of-Experts模型,每次推理只激活32B(320亿)参数。384个专家分组管理,每次回答调用8个路由专家加1个共享专家。好处是双向的:

  • 训练侧:总参数量大,学到的知识多
  • 推理侧:激活参数少,计算成本可控

注意力机制用的是MLA(Multi-Head Latent Attention),把处理过的数据压缩成轻量的数学表示,减少KV cache占用。激活函数是SwiGLU,比上一代更硬件友好。视觉模块是单独的400M参数编码器,支持图像和多媒体输入。

上下文窗口256K,还支持INT4量化,本地部署的路子也走通了。

300个Agent并行,12小时连续运行

这是Kimi K2.6真正让开发者感兴趣的部分:

  • 最多支持300个子Agent并行运行
  • 单次任务最多4000+工具调用
  • 持续运行时间可以到12小时不中断

为了支持这种规模的多Agent协作,月之暗面引入了”Claw Groups”——把大任务分拆成可以让人类和AI协同执行的子组。人在关键决策节点介入,AI负责中间过程的大量执行操作,逻辑上类似工厂流水线的人机分工。

对企业级应用来说这个设计很实际。真实工作流不是”完全自动化”或”完全人工”二选一,而是需要人在关键节点监督,AI在中间过程大量干活。

开源生态首日就打通了

上线当天就支持了vLLM、OpenRouter、Cloudflare Workers AI和MLX,这背后是提前几个月就开始的生态对接工作。

  • MLX:Apple Silicon上能跑
  • OpenRouter:API聚合平台直接接入
  • vLLM:高吞吐推理部署无障碍
  • Cloudflare Workers AI:边缘推理有了出路

首日完成这些集成不是偶然,说明月之暗面认真做了发布前的工程准备。

开源赛道在认真追了

去年还有人说”开源模型和GPT-4有明显差距”,今年这个话已经没法说了。

Kimi K2.6在HLE上压过了Claude Opus 4.6和GPT-5.4。DeepSeek V3.2把注意力改成稀疏结构,成本砍了一半。Qwen3.6-35B在MacBook上能跑,SWE-bench 73.4%。

开源不再是闭源的低配平替,而是在特定评测维度上反过来领跑了。对企业来说,这意味着私有部署、数据保密、成本控制这些需求终于有了旗舰级的可用选项。

评测成绩和生产实战之间当然还有距离。HLE的54.0和日常的代码调试、长文档理解、多轮对话是两件事。但方向已经很明确:月之暗面在认真打这场仗,这一局赢了。

参考来源:Moonshot AI releases Kimi-K2.6 model with 1T parameters, attention optimizations(SiliconANGLE);[AINews] Moonshot Kimi K2.6: the world's leading Open Model refreshes to catch up to Opus 4.6(Latent Space)