小米大模型每秒吐1000 token登行业第一 - News

先记住一个数：1000。

这是小米 MiMo 团队 6 月 8 日甩出来的成绩——一个一万亿参数的大模型，每秒能吐出 1000 多个 token，峰值冲到 1200。这个数字什么概念？你平时用 ChatGPT、Claude，每秒大概也就几十个 token 往外蹦，这一下快了十几倍。

更狠的是怎么做到的。

没用专用芯片，就 8 张普通显卡

万亿参数模型跑这么快，第一反应肯定是堆了什么神仙硬件。

没有。小米和推理伙伴 TileRT 用的是一个标准的 8 卡节点——市面上买得到的商用显卡，不是那种排队都抢不到的定制货。在一万亿参数这个量级上把解码速度推过 1000 token/秒，这是头一回。

省钱的逻辑就在这。同样的活，别人可能要上更贵的卡、更多的卡，小米这套是想证明：普通机房就能跑。

三招拼出来的速度

快不是靠一招鲜，是三个东西叠一块：

技术	干了啥
FP4 量化	把模型里最占地方的 MoE 专家压成 4 比特，其余部分留 FP8
DFlash 投机解码	一次并行猜好几个 token，猜对了就省一轮计算
TileRT 运行时	底层把 GPU 的并行榨到极限

投机解码这招值得多说一句。它的核心是”先猜后验”——让模型一口气预测后面一小串 token，对了就直接用，省下挨个生成的功夫。小米给的命中数据是：写代码场景一轮能押对 6.3 个 token，数学推理 5.56 个，跑 Agent 任务 4.29 个。押得越准，省得越多。

速度换钱，明码标价

这套 UltraSpeed 怎么收费？

小米说得很实在：价格是普通版 MiMo-V2.5-Pro 的 3 倍，但速度大概是 10 倍。算下来，单位 token 反而更便宜——你多花 3 倍的钱，买的是 10 倍的快。

不过有个限制：只走 API，不支持 Token Plan，而且是限时体验，6 月 9 日到 23 日开放申请，北京时间。

为什么”快”这事突然重要了

过去大家比模型，比的是聪明——跑分多高、能不能解奥数题。

现在风向变了。AI agent 起来之后，一个任务要让模型来回跑几十轮，每轮都等它慢慢吐字，整个流程就被拖死。这时候”每秒多少 token”不再是个面子参数，是能不能把 agent 跑顺的命门。

小米这一手，押的就是这个转向：当 AI 开始替你连续干活，比谁想得深之外，还得比谁反应快。万亿参数还能跑出实时速度，这条路一旦走通，又贵又慢的推理账单，可能要重算了。

参考来源：Xiaomi MiMo and TileRT Push a 1-Trillion-Parameter Model Past 1000 Tokens Per Second on Commodity GPUs（MarkTechPost）；Xiaomi MiMo-V2.5-Pro gets UltraSpeed Mode, breaks 1,CocoLoop、000 tokens/second speed on standard GPUs（Gizmochina）；China's Xiaomi MiMo Is Now 15X Faster Than ChatGPT and Claude（Decrypt）