2026 年 6 月 8 日,小米 MiMo 团队联合 TileRT 系统团队发布了一条简短的技术博客:MiMo-V2.5-Pro-UltraSpeed 在标准 8-GPU 商品节点上将 1.02 万亿参数的 MoE 模型跑到了 1,000 tokens/秒以上的解码速度,峰值约 1,200。没有晶圆级芯片,没有纯 SRAM 定制架构,也没有专用加速器。只有一块机房随处可租的 GPU 节点,加上三层深度协同的软件栈。
这意味着,在万亿参数模型的推理速度竞赛中,商品 GPU 上的系统优化首次追平了 Cerebras 定制晶圆级芯片的水平。五月份,Cerebras 用 WSE-3 晶圆级芯片跑 Kimi K2.6 达到 981 tps,被 Artificial Analysis 验证为"比最快的 GPU 云快 6.7 倍"——这个数字在不到一个月后就被一台标准 8-GPU 节点超越。
核心数据:快到什么程度?
MiMo-V2.5-Pro-UltraSpeed 并非新模型,而是 MiMo-V2.5-Pro 的高速推理模式。底层模型不变,变的是推理管线的每一个环节。核心数据如下:
- 模型规模:1.02 万亿参数,Mixture-of-Experts(MoE)架构
- 推理速度:1,000+ tokens/秒解码(峰值约 1,200),约为标准版的 10 倍
- 硬件:单个标准 8-GPU 商品节点,无定制芯片
- 定价:标准 API 的 3 倍,输出体验约 10 倍
- 开放方式:API 申请制试用(6 月 9 日至 23 日),FP4-DFlash checkpoint 已开源至 Hugging Face,TileRT 部分模块在 GitHub 开源
放在竞品对比中看,这个速度意味着什么:
| 模型 / 推理服务 | tokens/秒 | 硬件 |
|---|---|---|
| MiMo-V2.5-Pro-UltraSpeed | 1,000–1,200 | 商品 8-GPU 节点 |
| Cerebras 跑 Kimi K2.6 | 981 | WSE-3 晶圆级芯片(定制) |
| Groq LPU 跑 Kimi K2 | ~200 | LPU 定制架构 |
| Gemini Flash | ~192 | Google 云基础设施 |
| Claude Opus 4.6 | ~71 | Anthropic 基础设施 |
| GPT 系列 | ~68 | OpenAI 基础设施 |
注意:以上对比数据来自厂商声明或媒体报道援引厂商基准测试,均未经独立第三方验证。tokens/秒是吞吐量指标而非质量指标,跨厂商对比受批大小、上下文长度、并发数等变量影响,应视为方向性参考。
三项关键技术:不是单一技巧,而是三层协同
1,000 tps 不是靠某个单一优化达成的。用小米自己的话来说,这是"极端模型-系统协同设计"(extreme model-system codesign)的产物。三个技术层各自攻击不同的瓶颈,缺失任何一层都无法达到最终速度。
第一层:FP4 专家量化——只压缩最耐压的部分
在万亿参数规模下,FP8 甚至 FP16 的权重对内存带宽构成巨大压力。降低比特宽度直接提升解码速度。小米采用了 MXFP4 格式,但一条关键决策是:只对 MoE 的 Expert 模块做 FP4 量化,其余模块保持 FP8 精度。
逻辑很清晰:MoE 架构中 Expert 占据绝大多数参数量,同时也是对量化容忍度最高的部分。通过量化感知训练(QAT),小米在基准测试上保持了与原模型基本持平的能力。这条策略抓住了量化收益的大头,同时规避了对推理、逻辑和代码生成等敏感模块的精度损失。
第二层:DFlash 块级推测解码——一次预测一整块
传统推测解码(speculative decoding)用小模型猜测后续 token,大模型并行验证,通过拒绝采样保证输出与原模型一致。但瓶颈在于小模型本身仍是逐 token 自回归生成——猜得慢,验证再快也白搭。
DFlash 的思路是打破这个串行约束。它使用块级掩码并行预测:草稿模型在单次前向传播中填充整个掩码块,一次预测多个 token。小米在此基础上做了针对性优化:使用 Muon 二阶优化器和模型自蒸馏训练草稿模型;草稿模型仅使用滑动窗口注意力(SWA),使每次预测的计算量从与上下文长度线性相关变为常数;块大小限制为 8,平衡验证开销与并发度。
效果数据:
| 场景 | 平均接受长度(/8) |
|---|---|
| 编程 | 6.30 |
| 数学 / 推理 | 5.56 |
| Agent 任务 | 4.29 |
在编程场景中,每轮验证平均有 6–7 个草稿 token 被接受,个别样本达到 7.14。小米也坦承,在开放域对话等语义发散、不确定性高的场景中,接受率尚有提升空间。
第三层:TileRT 持久化 GPU 内核——消灭微秒级间隙
在 1,000 tps 的运行频率下,每个算子的生命周期被压缩到微秒级别。传统推理框架将模型分解为大量独立算子,每次算子启动都伴随主机端调度延迟、硬件同步和全局内存往返——这些在计算密集场景下微不足道的开销,在微秒级时钟下变成了"执行间隙"(Execution Gap),成为真正的瓶颈。
TileRT 的应对方案是一次执行模型的范式革命:
- Persistent Engine Kernel:彻底抛弃逐算子启动范式,将整个计算管线持久驻留在 GPU 上持续流动。当前 Tile 还在 Tensor Core 上计算时,后续数据已经在内存层级中流动,实现数据传输与计算的极致重叠。
- Warp Specialization:在 Tile 级别将数据搬运、张量计算和通信物理分解到不同 Warp(线程组),打破同质化锁步执行模式——GPU 从均质并行计算设备转变为持续流动、精密编排的异构执行系统。
TileRT 团队在技术博客中写道:"在 1,000+ TPS 的领域,一个微秒的开销直接转化为端到端性能的百分点级抖动。RMSNorm、RoPE、KV Cache 写入——这些 FLOP 微不足道的操作,在微秒级时钟下反复撕裂执行流,累积成严重的延迟惩罚。"
关键意义:推理速度的瓶颈正在从硬件转移到软件
MiMo UltraSpeed 最值得关注的地方,不是"中国模型又跑了个分",而是一个更根本的信号:推理速度的竞争维度正在从硬件转向软件/系统优化。
Cerebras 用一整片晶圆做推理,Groq 用纯 SRAM 架构追求极致速度,这两条路线都依赖定制硅。它们的逻辑是:只有专用硬件才能突破 GPU 的架构限制。而小米和 TileRT 给出的反例是:在相同的商品 GPU 上,通过模型-系统协同设计,可以达到甚至超越定制芯片的推理速度。
这不是说定制芯片没有价值——Cerebras 的 WSE-3 在能效比、批处理、长上下文等维度上仍有独特优势。但 MiMo 的 1,000 tps 证明了另一件事:商品 GPU 的推理潜力远未被挖尽。过去几年行业把注意力集中在更大的模型、更多的训练算力上,推理层面的系统优化相对滞后。当模型能力竞争趋于同质化,推理速度正在成为新的差异化维度。
TileRT 团队在博客中提出了一个值得深思的命题:"Speed is the New Scaling Law"——过去 Scaling Law 的讨论集中在参数规模、数据量和训练算力上,但推理速度本身正在重新定义模型能力的边界。在 Agent 工作流、测试时计算(Test-Time Scaling)、实时交互等场景中,推理速度直接决定了搜索深度、rollout 预算和交互延迟。许多在理论上优秀的算法,只有在推理管线能在极窄的延迟预算内闭环时,才能在生产中真正落地。
开源与可验证性
截至目前,1,000 tps 的声明仍来自小米自身基准测试,尚未有独立第三方验证。但小米做了一件关键的事:开源了 MiMo-V2.5-Pro-FP4-DFlash checkpoint(Hugging Face: XiaomiMiMo/MiMo-V2.5-Pro-FP4-DFlash),TileRT 也在 GitHub(tile-ai/TileRT)开源了部分模块。
这意味着社区可以在自己的 8-GPU 节点上复现这一结果。一个只能通过封闭试用窗口访问的基准是营销,一个任何人都能下载并压力测试的 checkpoint 是待验证的证据。结果能否复现,将决定这个数字是里程碑还是头条。
值得关注的三个问题
第一,独立复现。现在 checkpoint 和部分运行时组件已公开,研究者和工程师在自己的硬件上跑出的结果,才是这个故事真正的结局。
第二,持久性。试用窗口仅到 6 月 23 日。UltraSpeed 是变成常驻产品还是限时展示,将说明小米对这项技术的商业化决心。
第三,质量与速度的权衡。小米声称 FP4 量化后能力与原模型基本持平,但吞吐量图表不会揭示微妙的退化——代码生成质量、复杂推理一致性、长上下文表现究竟如何,需要独立评测给出答案。
不管怎样,这是一次值得认真对待的声明。不是因为它"15 倍快于 ChatGPT"(那是媒体标题,不是小米博客的原话),而是因为它提出了一个可验证的主张,并给出了验证所需的工具。在 AI 推理速度成为新竞争维度的 2026 年,这本身就值得关注。

