MiniMax M3 上稀疏注意力，支持百万上下文 - News

6 月 1 日，MiniMax 发了 M3。一句话概括卖点：一个开源权重的模型，同时塞进了 100 万 token 上下文、前沿级的写代码能力，还带原生多模态。MiniMax 说，这三样凑一块的，它是头一个。

真正的功夫在「稀疏注意力」上

M3 的底座是一套叫 MSA（MiniMax Sparse Attention）的新架构。

要懂它解决了啥，得先知道老问题：标准的全注意力，算力随上下文长度平方往上涨——上下文一长，成本就爆炸。这也是为什么「百万上下文」喊了这么久，真用起来都嫌贵。

MSA 就是冲这个去的。MiniMax 给的数字：在 100 万 token 这个长度上，M3 每个 token 的算力只有上一代 M2 的二十分之一；预填充快了 9 倍多，解码快了 15 倍多。

换句话说，百万上下文这次不只是「能用」，是「用得起」。

跑分：自己报的，挺猛

编程是 M3 主打的方向。MiniMax 列的成绩：

benchmark	M3 成绩	对照
SWE-Bench Pro	59.0%	超过 GPT-5.5、Gemini 3.1 Pro，逼近 Opus 4.7
Terminal-Bench 2.1	66.0%	—
MCP Atlas	74.2%	—
OSWorld（电脑操作）	70.06%	—

这套数字要是属实，对一个开源权重模型来说相当能打。

但得泼盆冷水：这些都是 MiniMax 自己跑、自己报的，第三方还没复现。已经有海外媒体直接拿「前沿宣称、跑分未经验证」当标题了。所以聪明的做法是——等十天后权重和技术报告放出来，社区自己上手测了再下结论。

价钱也摆出来了

MiniMax 这次连套餐都标好了：

Plus：每月约 17 亿 token，20 美元
Max：每月约 51 亿 token，50 美元
Ultra：每月约 98 亿 token，120 美元

API 已经能用，模型权重和技术报告说大概十天内放到 Hugging Face 和 GitHub。

放到大背景里看，这是国产开源大模型又一次往「长上下文 + 能干活的 Agent」方向使劲。DeepSeek、Qwen、Kimi 已经在这条路上卷了一年，MiniMax 这次的差异化押在架构效率上——不比谁参数大，比谁在百万上下文这个尺度上，算得又快又便宜。

这一刀，砍的是闭源模型「长上下文太贵」的那点护城河。

参考来源：CocoLoop、MiniMax Releases MiniMax M3 with MSA Architecture Supporting 1M-Token Context（MarkTechPost）；MiniMax M3: Open-weight model with a million-token context challenges proprietary leaders（The Decoder）；MiniMax M3 Open-Weight Coding Model: Frontier Claims, Unverified Benchmarks（TechTimes）