万亿参数模型每秒吐 1000 个 token:小米靠 8 张普通显卡干成了行业第一,比 ChatGPT 快十几倍

先记住一个数:1000。

这是小米 MiMo 团队 6 月 8 日甩出来的成绩——一个一万亿参数的大模型,每秒能吐出 1000 多个 token,峰值冲到 1200。这个数字什么概念?你平时用 ChatGPT、Claude,每秒大概也就几十个 token 往外蹦,这一下快了十几倍。

更狠的是怎么做到的。

没用专用芯片,就 8 张普通显卡

万亿参数模型跑这么快,第一反应肯定是堆了什么神仙硬件。

没有。小米和推理伙伴 TileRT 用的是一个标准的 8 卡节点——市面上买得到的商用显卡,不是那种排队都抢不到的定制货。在一万亿参数这个量级上把解码速度推过 1000 token/秒,这是头一回。

省钱的逻辑就在这。同样的活,别人可能要上更贵的卡、更多的卡,小米这套是想证明:普通机房就能跑。

三招拼出来的速度

快不是靠一招鲜,是三个东西叠一块:

技术 干了啥
FP4 量化 把模型里最占地方的 MoE 专家压成 4 比特,其余部分留 FP8
DFlash 投机解码 一次并行猜好几个 token,猜对了就省一轮计算
TileRT 运行时 底层把 GPU 的并行榨到极限

投机解码这招值得多说一句。它的核心是”先猜后验”——让模型一口气预测后面一小串 token,对了就直接用,省下挨个生成的功夫。小米给的命中数据是:写代码场景一轮能押对 6.3 个 token,数学推理 5.56 个,跑 Agent 任务 4.29 个。押得越准,省得越多。

速度换钱,明码标价

这套 UltraSpeed 怎么收费?

小米说得很实在:价格是普通版 MiMo-V2.5-Pro 的 3 倍,但速度大概是 10 倍。算下来,单位 token 反而更便宜——你多花 3 倍的钱,买的是 10 倍的快。

不过有个限制:只走 API,不支持 Token Plan,而且是限时体验,6 月 9 日到 23 日开放申请,北京时间。

为什么”快”这事突然重要了

过去大家比模型,比的是聪明——跑分多高、能不能解奥数题。

现在风向变了。AI agent 起来之后,一个任务要让模型来回跑几十轮,每轮都等它慢慢吐字,整个流程就被拖死。这时候”每秒多少 token”不再是个面子参数,是能不能把 agent 跑顺的命门。

小米这一手,押的就是这个转向:当 AI 开始替你连续干活,比谁想得深之外,还得比谁反应快。万亿参数还能跑出实时速度,这条路一旦走通,又贵又慢的推理账单,可能要重算了。

参考来源:Xiaomi MiMo and TileRT Push a 1-Trillion-Parameter Model Past 1000 Tokens Per Second on Commodity GPUs(MarkTechPost);Xiaomi MiMo-V2.5-Pro gets UltraSpeed Mode, breaks 1,000 tokens/second speed on standard GPUs(Gizmochina);China's Xiaomi MiMo Is Now 15X Faster Than ChatGPT and Claude(Decrypt)