MiniMax M3 把注意力改成稀疏的:100 万上下文每 token 算力砍到二十分之一,跑分自己说追平 Opus 4.7

6 月 1 日,MiniMax 发了 M3。一句话概括卖点:一个开源权重的模型,同时塞进了 100 万 token 上下文、前沿级的写代码能力,还带原生多模态。MiniMax 说,这三样凑一块的,它是头一个。

真正的功夫在「稀疏注意力」上

M3 的底座是一套叫 MSA(MiniMax Sparse Attention)的新架构。

要懂它解决了啥,得先知道老问题:标准的全注意力,算力随上下文长度平方往上涨——上下文一长,成本就爆炸。这也是为什么「百万上下文」喊了这么久,真用起来都嫌贵。

MSA 就是冲这个去的。MiniMax 给的数字:在 100 万 token 这个长度上,M3 每个 token 的算力只有上一代 M2 的二十分之一;预填充快了 9 倍多,解码快了 15 倍多。

换句话说,百万上下文这次不只是「能用」,是「用得起」。

跑分:自己报的,挺猛

编程是 M3 主打的方向。MiniMax 列的成绩:

benchmark M3 成绩 对照
SWE-Bench Pro 59.0% 超过 GPT-5.5、Gemini 3.1 Pro,逼近 Opus 4.7
Terminal-Bench 2.1 66.0%
MCP Atlas 74.2%
OSWorld(电脑操作) 70.06%

这套数字要是属实,对一个开源权重模型来说相当能打。

但得泼盆冷水:这些都是 MiniMax 自己跑、自己报的,第三方还没复现。已经有海外媒体直接拿「前沿宣称、跑分未经验证」当标题了。所以聪明的做法是——等十天后权重和技术报告放出来,社区自己上手测了再下结论。

价钱也摆出来了

MiniMax 这次连套餐都标好了:

  • Plus:每月约 17 亿 token,20 美元
  • Max:每月约 51 亿 token,50 美元
  • Ultra:每月约 98 亿 token,120 美元

API 已经能用,模型权重和技术报告说大概十天内放到 Hugging Face 和 GitHub。

放到大背景里看,这是国产开源大模型又一次往「长上下文 + 能干活的 Agent」方向使劲。DeepSeek、Qwen、Kimi 已经在这条路上卷了一年,MiniMax 这次的差异化押在架构效率上——不比谁参数大,比谁在百万上下文这个尺度上,算得又快又便宜。

这一刀,砍的是闭源模型「长上下文太贵」的那点护城河。

参考来源:MiniMax Releases MiniMax M3 with MSA Architecture Supporting 1M-Token Context(MarkTechPost);MiniMax M3: Open-weight model with a million-token context challenges proprietary leaders(The Decoder);MiniMax M3 Open-Weight Coding Model: Frontier Claims, Unverified Benchmarks(TechTimes)