MiniMax-01的Lightning Attention：把注意力机制的计算量打下来

MiniMax去年发布的01系列模型里有个技术亮点叫Lightning Attention，核心目的很直接——降低注意力机制的计算复杂度。

传统注意力机制的问题

标准的Transformer注意力是O(n²)复杂度——输入长度翻倍，计算量翻四倍。这就是为什么早期模型的上下文窗口很短（512、1024 token），因为再长计算成本就爆炸了。

虽然后来有了各种优化（FlashAttention、PagedAttention等），但O(n²)这个根本约束没变。

Lightning Attention走的是线性注意力的变种路线，通过改变注意力计算的方式，把复杂度从O(n²)降到接近O(n)。

具体做法涉及对注意力矩阵的近似分解，在保持模型表达能力的前提下大幅减少浮点运算量。MiniMax声称在长上下文场景下，这个优化带来了数倍的速度提升。

MiniMax-01系列在百万级token的长上下文测试中表现不错，速度明显优于使用标准注意力的同规模模型。在Needle-in-a-Haystack类型的检索测试中也维持了较高的准确率。

不过需要注意，线性注意力的trade-off是精确度。在某些需要精确长距离关注的任务上，线性近似可能会丢失信息。这也是为什么目前主流模型没有完全放弃O(n²)注意力——它更准确，只是更贵。

MiniMax不是唯一在做这件事的。降低注意力复杂度是整个行业的共同课题：

最终可能的方向是混合架构——对需要精确关注的层用标准注意力，其余层用线性注意力或SSM，在精度和效率之间取平衡。

参考来源：MiniMax官方技术报告