先记住一个数:1000。
这是小米 MiMo 团队 6 月 8 日甩出来的成绩——一个一万亿参数的大模型,每秒能吐出 1000 多个 token,峰值冲到 1200。这个数字什么概念?你平时用 ChatGPT、Claude,每秒大概也就几十个 token 往外蹦,这一下快了十几倍。
更狠的是怎么做到的。
没用专用芯片,就 8 张普通显卡
万亿参数模型跑这么快,第一反应肯定是堆了什么神仙硬件。
没有。小米和推理伙伴 TileRT 用的是一个标准的 8 卡节点——市面上买得到的商用显卡,不是那种排队都抢不到的定制货。在一万亿参数这个量级上把解码速度推过 1000 token/秒,这是头一回。
省钱的逻辑就在这。同样的活,别人可能要上更贵的卡、更多的卡,小米这套是想证明:普通机房就能跑。
三招拼出来的速度
快不是靠一招鲜,是三个东西叠一块:
| 技术 | 干了啥 |
|---|---|
| FP4 量化 | 把模型里最占地方的 MoE 专家压成 4 比特,其余部分留 FP8 |
| DFlash 投机解码 | 一次并行猜好几个 token,猜对了就省一轮计算 |
| TileRT 运行时 | 底层把 GPU 的并行榨到极限 |
投机解码这招值得多说一句。它的核心是”先猜后验”——让模型一口气预测后面一小串 token,对了就直接用,省下挨个生成的功夫。小米给的命中数据是:写代码场景一轮能押对 6.3 个 token,数学推理 5.56 个,跑 Agent 任务 4.29 个。押得越准,省得越多。
速度换钱,明码标价
这套 UltraSpeed 怎么收费?
小米说得很实在:价格是普通版 MiMo-V2.5-Pro 的 3 倍,但速度大概是 10 倍。算下来,单位 token 反而更便宜——你多花 3 倍的钱,买的是 10 倍的快。
不过有个限制:只走 API,不支持 Token Plan,而且是限时体验,6 月 9 日到 23 日开放申请,北京时间。
为什么”快”这事突然重要了
过去大家比模型,比的是聪明——跑分多高、能不能解奥数题。
现在风向变了。AI agent 起来之后,一个任务要让模型来回跑几十轮,每轮都等它慢慢吐字,整个流程就被拖死。这时候”每秒多少 token”不再是个面子参数,是能不能把 agent 跑顺的命门。
小米这一手,押的就是这个转向:当 AI 开始替你连续干活,比谁想得深之外,还得比谁反应快。万亿参数还能跑出实时速度,这条路一旦走通,又贵又慢的推理账单,可能要重算了。
参考来源:Xiaomi MiMo and TileRT Push a 1-Trillion-Parameter Model Past 1000 Tokens Per Second on Commodity GPUs(MarkTechPost);Xiaomi MiMo-V2.5-Pro gets UltraSpeed Mode, breaks 1,000 tokens/second speed on standard GPUs(Gizmochina);China's Xiaomi MiMo Is Now 15X Faster Than ChatGPT and Claude(Decrypt)