“AI自我进化”这个词被说烂了,但MiniMax在M2.7上做的事稍微不一样。
不是科幻意义上的自我意识,而是:M2.7在自己的训练过程里,用一套agent框架自动跑实验、读日志、分析指标、调代码、再跑实验,循环100多轮——没有人工干预,内部评测指标最终涨了30%。
这件事的边界在哪里?大模型参与自身迭代,是未来AI开发的一个方向,还是只是工程上的一次聪明操作?
“自我进化”的具体机制
M2.7用的框架叫OpenClaw。训练过程里挂了一个研究agent harness,它的工作是:
- 监控实验进度
- 自动触发日志读取和指标分析
- 发现问题后生成修复代码
- 提交修复,重新运行实验
这个循环不是人设计每一步,而是让agent自己根据实验结果决定下一步做什么。跑了100多轮之后,内部评测比原来高出30%。
MiniMax把这称为”早期自我进化的回声”(Early Echoes of Self-Evolution)——名字谦虚,但方向不小。工程师不需要盯着每次实验手动调参,模型在某种程度上学会了把自己调得更好。
M2.7跑分怎么样
先看编程能力,这是目前最直观的横评维度:
| Benchmark | M2.7得分 | 说明 |
|---|---|---|
| SWE-Pro | 56.22% | 接近Claude Opus水平 |
| VIBE-Pro(端到端项目交付) | 55.6% | — |
| Terminal Bench 2(复杂系统理解) | 57.0% | — |
ML竞赛能力也不低:在22个ML竞赛任务(MLE Bench Lite)里,最佳成绩是9金5银1铜,三次运行平均奖牌率66.6%。
通用工作能力方面,GDPval-AA ELO 1495,是开源模型里目前最高的。复杂技能(每个技能2000+ token定义)执行准确率达到97%。
Dataconomy的独立测试也显示,M2.7在软件工程任务上接近GPT-5.3-Codex的水平,考虑到价格差距,这个对比挺有意义的。
架构:230B参数,只激活10B
M2.7是稀疏MoE(混合专家)架构,总参数230亿(不对,是2300亿,230B)——但每次推理只激活10B参数。
这是MoE的经典逻辑:把模型切成很多个专家,每次只调用对当前任务最相关的那几个。效果是:推理成本接近10B密集模型,能力却接近230B的量级。
价格:输入**$0.30/M token**,输出**$1.20/M token**。另有M2.7-highspeed版本,速度更快,结果一致。模型权重已于4月12日开源。
Native Agent Teams:多agent协作不是靠prompting
M2.7有个专门设计点:原生多agent协作(Native Agent Teams)。
MiniMax的说法是,多agent场景里有些能力不能靠prompting解决:角色边界、对抗性推理、协议遵守、行为差异——这些必须在训练层面固化进去,光靠系统提示词撑不住。
这也是M2.7在Toolathon(工具调用评测)拿到46.3%、支持40+复杂技能的原因。在MiniMax的长期产品路线上,agent能力是核心方向,M2.7是这条路上走得最远的一步。
这个方向值得认真对待
自动化训练迭代不是新概念,但M2.7把它做进了一个正式发布的商业模型,并且有具体数字支撑(30%提升,100轮迭代),而不是只停留在论文层面。
更值得想的是它打开了一个问题:如果模型能自己改进自己的训练过程,未来AI实验室的工程师数量会不会变少?MiniMax本来就是以小规模高效著称的团队,M2.7的自动化思路和这个基因完全一致。
国产开源模型里,M2.7是目前在agentic能力上覆盖最全的——从多agent协作、ML竞赛、到端到端项目交付都有数据支撑。跟DeepSeek走训练效率路线、Qwen走参数规模路线不同,MiniMax这次明确在赌agentic工作流是下一个主战场。
参考来源:MiniMax M2.7: Early Echoes of Self-Evolution(minimax.io);MiniMax M2.7 Advances Scalable Agentic Workflows on NVIDIA Platforms(NVIDIA Technical Blog);MiniMax M2.7 Matches GPT-5.3-Codex In Software Engineering Tasks(Dataconomy);MiniMax M2.7 Model Specs, Costs & Benchmarks(Galaxy.ai)