MiniMax-01的Lightning Attention:把注意力机制的计算量打下来

 · 

MiniMax去年发布的01系列模型里有个技术亮点叫Lightning Attention,核心目的很直接——降低注意力机制的计算复杂度

传统注意力机制的问题

标准的Transformer注意力是O(n²)复杂度——输入长度翻倍,计算量翻四倍。这就是为什么早期模型的上下文窗口很短(512、1024 token),因为再长计算成本就爆炸了。

虽然后来有了各种优化(FlashAttention、PagedAttention等),但O(n²)这个根本约束没变。

Lightning Attention的思路

Lightning Attention走的是线性注意力的变种路线,通过改变注意力计算的方式,把复杂度从O(n²)降到接近O(n)

具体做法涉及对注意力矩阵的近似分解,在保持模型表达能力的前提下大幅减少浮点运算量。MiniMax声称在长上下文场景下,这个优化带来了数倍的速度提升

实际效果

MiniMax-01系列在百万级token的长上下文测试中表现不错,速度明显优于使用标准注意力的同规模模型。在Needle-in-a-Haystack类型的检索测试中也维持了较高的准确率。

不过需要注意,线性注意力的trade-off是精确度。在某些需要精确长距离关注的任务上,线性近似可能会丢失信息。这也是为什么目前主流模型没有完全放弃O(n²)注意力——它更准确,只是更贵。

行业趋势

MiniMax不是唯一在做这件事的。降低注意力复杂度是整个行业的共同课题:

  • Google的各种attention变体
  • Meta在Llama中的GQA(Grouped Query Attention)
  • Mamba/SSM走的是完全抛弃attention的路线

最终可能的方向是混合架构——对需要精确关注的层用标准注意力,其余层用线性注意力或SSM,在精度和效率之间取平衡。

参考来源:MiniMax官方技术报告