MiniMax M2.7：AI第一次深度参与了自己的训练，100轮自动迭代，性能涨了30% - News

“AI自我进化”这个词被说烂了，但MiniMax在M2.7上做的事稍微不一样。

不是科幻意义上的自我意识，而是：M2.7在自己的训练过程里，用一套agent框架自动跑实验、读日志、分析指标、调代码、再跑实验，循环100多轮——没有人工干预，内部评测指标最终涨了30%。

这件事的边界在哪里？大模型参与自身迭代，是未来AI开发的一个方向，还是只是工程上的一次聪明操作？

“自我进化”的具体机制

M2.7用的框架叫OpenClaw。训练过程里挂了一个研究agent harness，它的工作是：

监控实验进度
自动触发日志读取和指标分析
发现问题后生成修复代码
提交修复，重新运行实验

这个循环不是人设计每一步，而是让agent自己根据实验结果决定下一步做什么。跑了100多轮之后，内部评测比原来高出30%。

MiniMax把这称为”早期自我进化的回声”（Early Echoes of Self-Evolution）——名字谦虚，但方向不小。工程师不需要盯着每次实验手动调参，模型在某种程度上学会了把自己调得更好。

M2.7跑分怎么样

先看编程能力，这是目前最直观的横评维度：

Benchmark	M2.7得分	说明
SWE-Pro	56.22%	接近Claude Opus水平
VIBE-Pro（端到端项目交付）	55.6%	—
Terminal Bench 2（复杂系统理解）	57.0%	—

ML竞赛能力也不低：在22个ML竞赛任务（MLE Bench Lite）里，最佳成绩是9金5银1铜，三次运行平均奖牌率66.6%。

通用工作能力方面，GDPval-AA ELO 1495，是开源模型里目前最高的。复杂技能（每个技能2000+ token定义）执行准确率达到97%。

Dataconomy的独立测试也显示，M2.7在软件工程任务上接近GPT-5.3-Codex的水平，考虑到价格差距，这个对比挺有意义的。

架构：230B参数，只激活10B

M2.7是稀疏MoE（混合专家）架构，总参数230亿（不对，是2300亿，230B）——但每次推理只激活10B参数。

这是MoE的经典逻辑：把模型切成很多个专家，每次只调用对当前任务最相关的那几个。效果是：推理成本接近10B密集模型，能力却接近230B的量级。

价格：输入**$0.30/M token**，输出**$1.20/M token**。另有M2.7-highspeed版本，速度更快，结果一致。模型权重已于4月12日开源。

Native Agent Teams：多agent协作不是靠prompting

M2.7有个专门设计点：原生多agent协作（Native Agent Teams）。

MiniMax的说法是，多agent场景里有些能力不能靠prompting解决：角色边界、对抗性推理、协议遵守、行为差异——这些必须在训练层面固化进去，光靠系统提示词撑不住。

这也是M2.7在Toolathon（工具调用评测）拿到46.3%、支持40+复杂技能的原因。在MiniMax的长期产品路线上，agent能力是核心方向，M2.7是这条路上走得最远的一步。

这个方向值得认真对待

自动化训练迭代不是新概念，但M2.7把它做进了一个正式发布的商业模型，并且有具体数字支撑（30%提升，100轮迭代），而不是只停留在论文层面。

更值得想的是它打开了一个问题：如果模型能自己改进自己的训练过程，未来AI实验室的工程师数量会不会变少？MiniMax本来就是以小规模高效著称的团队，M2.7的自动化思路和这个基因完全一致。

国产开源模型里，M2.7是目前在agentic能力上覆盖最全的——从多agent协作、ML竞赛、到端到端项目交付都有数据支撑。跟DeepSeek走训练效率路线、Qwen走参数规模路线不同，MiniMax这次明确在赌agentic工作流是下一个主战场。

参考来源：MiniMax M2.7: Early Echoes of Self-Evolution（minimax.io）；MiniMax M2.7 Advances Scalable Agentic Workflows on NVIDIA Platforms（NVIDIA Technical Blog）；MiniMax M2.7 Matches GPT-5.3-Codex In Software Engineering Tasks（Dataconomy）；MiniMax M2.7 Model Specs, Costs & Benchmarks（Galaxy.ai）