6 月 1 日,MiniMax 发了 M3。一句话概括卖点:一个开源权重的模型,同时塞进了 100 万 token 上下文、前沿级的写代码能力,还带原生多模态。MiniMax 说,这三样凑一块的,它是头一个。
真正的功夫在「稀疏注意力」上
M3 的底座是一套叫 MSA(MiniMax Sparse Attention)的新架构。
要懂它解决了啥,得先知道老问题:标准的全注意力,算力随上下文长度平方往上涨——上下文一长,成本就爆炸。这也是为什么「百万上下文」喊了这么久,真用起来都嫌贵。
MSA 就是冲这个去的。MiniMax 给的数字:在 100 万 token 这个长度上,M3 每个 token 的算力只有上一代 M2 的二十分之一;预填充快了 9 倍多,解码快了 15 倍多。
换句话说,百万上下文这次不只是「能用」,是「用得起」。
跑分:自己报的,挺猛
编程是 M3 主打的方向。MiniMax 列的成绩:
| benchmark | M3 成绩 | 对照 |
|---|---|---|
| SWE-Bench Pro | 59.0% | 超过 GPT-5.5、Gemini 3.1 Pro,逼近 Opus 4.7 |
| Terminal-Bench 2.1 | 66.0% | — |
| MCP Atlas | 74.2% | — |
| OSWorld(电脑操作) | 70.06% | — |
这套数字要是属实,对一个开源权重模型来说相当能打。
但得泼盆冷水:这些都是 MiniMax 自己跑、自己报的,第三方还没复现。已经有海外媒体直接拿「前沿宣称、跑分未经验证」当标题了。所以聪明的做法是——等十天后权重和技术报告放出来,社区自己上手测了再下结论。
价钱也摆出来了
MiniMax 这次连套餐都标好了:
- Plus:每月约 17 亿 token,20 美元
- Max:每月约 51 亿 token,50 美元
- Ultra:每月约 98 亿 token,120 美元
API 已经能用,模型权重和技术报告说大概十天内放到 Hugging Face 和 GitHub。
放到大背景里看,这是国产开源大模型又一次往「长上下文 + 能干活的 Agent」方向使劲。DeepSeek、Qwen、Kimi 已经在这条路上卷了一年,MiniMax 这次的差异化押在架构效率上——不比谁参数大,比谁在百万上下文这个尺度上,算得又快又便宜。
这一刀,砍的是闭源模型「长上下文太贵」的那点护城河。
参考来源:MiniMax Releases MiniMax M3 with MSA Architecture Supporting 1M-Token Context(MarkTechPost);MiniMax M3: Open-weight model with a million-token context challenges proprietary leaders(The Decoder);MiniMax M3 Open-Weight Coding Model: Frontier Claims, Unverified Benchmarks(TechTimes)