小米 MiMo 突破 1,000 tokens/秒：万亿参数模型在普通 GPU 上跑出推理速度新纪录，无需定制芯片

2026 年 6 月 8 日，小米 MiMo 团队联合 TileRT 系统团队发布了一条简短的技术博客：MiMo-V2.5-Pro-UltraSpeed 在标准 8-GPU 商品节点上将 1.02 万亿参数的 MoE 模型跑到了 1,000 tokens/秒以上的解码速度，峰值约 1,200。没有晶圆级芯片，没有纯 SRAM 定制架构，也没有专用加速器。只有一块机房随处可租的 GPU 节点，加上三层深度协同的软件栈。

这意味着，在万亿参数模型的推理速度竞赛中，商品 GPU 上的系统优化首次追平了 Cerebras 定制晶圆级芯片的水平。五月份，Cerebras 用 WSE-3 晶圆级芯片跑 Kimi K2.6 达到 981 tps，被 Artificial Analysis 验证为"比最快的 GPU 云快 6.7 倍"——这个数字在不到一个月后就被一台标准 8-GPU 节点超越。

核心数据：快到什么程度？

MiMo-V2.5-Pro-UltraSpeed 并非新模型，而是 MiMo-V2.5-Pro 的高速推理模式。底层模型不变，变的是推理管线的每一个环节。核心数据如下：

模型规模：1.02 万亿参数，Mixture-of-Experts（MoE）架构
推理速度：1,000+ tokens/秒解码（峰值约 1,200），约为标准版的 10 倍
硬件：单个标准 8-GPU 商品节点，无定制芯片
定价：标准 API 的 3 倍，输出体验约 10 倍
开放方式：API 申请制试用（6 月 9 日至 23 日），FP4-DFlash checkpoint 已开源至 Hugging Face，TileRT 部分模块在 GitHub 开源

放在竞品对比中看，这个速度意味着什么：

模型 / 推理服务	tokens/秒	硬件
MiMo-V2.5-Pro-UltraSpeed	1,000–1,200	商品 8-GPU 节点
Cerebras 跑 Kimi K2.6	981	WSE-3 晶圆级芯片（定制）
Groq LPU 跑 Kimi K2	~200	LPU 定制架构
Gemini Flash	~192	Google 云基础设施
Claude Opus 4.6	~71	Anthropic 基础设施
GPT 系列	~68	OpenAI 基础设施

注意：以上对比数据来自厂商声明或媒体报道援引厂商基准测试，均未经独立第三方验证。tokens/秒是吞吐量指标而非质量指标，跨厂商对比受批大小、上下文长度、并发数等变量影响，应视为方向性参考。

三项关键技术：不是单一技巧，而是三层协同

1,000 tps 不是靠某个单一优化达成的。用小米自己的话来说，这是"极端模型-系统协同设计"（extreme model-system codesign）的产物。三个技术层各自攻击不同的瓶颈，缺失任何一层都无法达到最终速度。

第一层：FP4 专家量化——只压缩最耐压的部分

在万亿参数规模下，FP8 甚至 FP16 的权重对内存带宽构成巨大压力。降低比特宽度直接提升解码速度。小米采用了 MXFP4 格式，但一条关键决策是：只对 MoE 的 Expert 模块做 FP4 量化，其余模块保持 FP8 精度。

逻辑很清晰：MoE 架构中 Expert 占据绝大多数参数量，同时也是对量化容忍度最高的部分。通过量化感知训练（QAT），小米在基准测试上保持了与原模型基本持平的能力。这条策略抓住了量化收益的大头，同时规避了对推理、逻辑和代码生成等敏感模块的精度损失。

第二层：DFlash 块级推测解码——一次预测一整块

传统推测解码（speculative decoding）用小模型猜测后续 token，大模型并行验证，通过拒绝采样保证输出与原模型一致。但瓶颈在于小模型本身仍是逐 token 自回归生成——猜得慢，验证再快也白搭。

DFlash 的思路是打破这个串行约束。它使用块级掩码并行预测：草稿模型在单次前向传播中填充整个掩码块，一次预测多个 token。小米在此基础上做了针对性优化：使用 Muon 二阶优化器和模型自蒸馏训练草稿模型；草稿模型仅使用滑动窗口注意力（SWA），使每次预测的计算量从与上下文长度线性相关变为常数；块大小限制为 8，平衡验证开销与并发度。

效果数据：

场景	平均接受长度（/8）
编程	6.30
数学 / 推理	5.56
Agent 任务	4.29

在编程场景中，每轮验证平均有 6–7 个草稿 token 被接受，个别样本达到 7.14。小米也坦承，在开放域对话等语义发散、不确定性高的场景中，接受率尚有提升空间。

第三层：TileRT 持久化 GPU 内核——消灭微秒级间隙

在 1,000 tps 的运行频率下，每个算子的生命周期被压缩到微秒级别。传统推理框架将模型分解为大量独立算子，每次算子启动都伴随主机端调度延迟、硬件同步和全局内存往返——这些在计算密集场景下微不足道的开销，在微秒级时钟下变成了"执行间隙"（Execution Gap），成为真正的瓶颈。

TileRT 的应对方案是一次执行模型的范式革命：

Persistent Engine Kernel：彻底抛弃逐算子启动范式，将整个计算管线持久驻留在 GPU 上持续流动。当前 Tile 还在 Tensor Core 上计算时，后续数据已经在内存层级中流动，实现数据传输与计算的极致重叠。
Warp Specialization：在 Tile 级别将数据搬运、张量计算和通信物理分解到不同 Warp（线程组），打破同质化锁步执行模式——GPU 从均质并行计算设备转变为持续流动、精密编排的异构执行系统。

TileRT 团队在技术博客中写道："在 1,000+ TPS 的领域，一个微秒的开销直接转化为端到端性能的百分点级抖动。RMSNorm、RoPE、KV Cache 写入——这些 FLOP 微不足道的操作，在微秒级时钟下反复撕裂执行流，累积成严重的延迟惩罚。"

关键意义：推理速度的瓶颈正在从硬件转移到软件

MiMo UltraSpeed 最值得关注的地方，不是"中国模型又跑了个分"，而是一个更根本的信号：推理速度的竞争维度正在从硬件转向软件/系统优化。

Cerebras 用一整片晶圆做推理，Groq 用纯 SRAM 架构追求极致速度，这两条路线都依赖定制硅。它们的逻辑是：只有专用硬件才能突破 GPU 的架构限制。而小米和 TileRT 给出的反例是：在相同的商品 GPU 上，通过模型-系统协同设计，可以达到甚至超越定制芯片的推理速度。

这不是说定制芯片没有价值——Cerebras 的 WSE-3 在能效比、批处理、长上下文等维度上仍有独特优势。但 MiMo 的 1,000 tps 证明了另一件事：商品 GPU 的推理潜力远未被挖尽。过去几年行业把注意力集中在更大的模型、更多的训练算力上，推理层面的系统优化相对滞后。当模型能力竞争趋于同质化，推理速度正在成为新的差异化维度。

TileRT 团队在博客中提出了一个值得深思的命题："Speed is the New Scaling Law"——过去 Scaling Law 的讨论集中在参数规模、数据量和训练算力上，但推理速度本身正在重新定义模型能力的边界。在 Agent 工作流、测试时计算（Test-Time Scaling）、实时交互等场景中，推理速度直接决定了搜索深度、rollout 预算和交互延迟。许多在理论上优秀的算法，只有在推理管线能在极窄的延迟预算内闭环时，才能在生产中真正落地。

开源与可验证性

截至目前，1,000 tps 的声明仍来自小米自身基准测试，尚未有独立第三方验证。但小米做了一件关键的事：开源了 MiMo-V2.5-Pro-FP4-DFlash checkpoint（Hugging Face: XiaomiMiMo/MiMo-V2.5-Pro-FP4-DFlash），TileRT 也在 GitHub（tile-ai/TileRT）开源了部分模块。

这意味着社区可以在自己的 8-GPU 节点上复现这一结果。一个只能通过封闭试用窗口访问的基准是营销，一个任何人都能下载并压力测试的 checkpoint 是待验证的证据。结果能否复现，将决定这个数字是里程碑还是头条。

值得关注的三个问题

第一，独立复现。现在 checkpoint 和部分运行时组件已公开，研究者和工程师在自己的硬件上跑出的结果，才是这个故事真正的结局。

第二，持久性。试用窗口仅到 6 月 23 日。UltraSpeed 是变成常驻产品还是限时展示，将说明小米对这项技术的商业化决心。

第三，质量与速度的权衡。小米声称 FP4 量化后能力与原模型基本持平，但吞吐量图表不会揭示微妙的退化——代码生成质量、复杂推理一致性、长上下文表现究竟如何，需要独立评测给出答案。

不管怎样，这是一次值得认真对待的声明。不是因为它"15 倍快于 ChatGPT"（那是媒体标题，不是小米博客的原话），而是因为它提出了一个可验证的主张，并给出了验证所需的工具。在 AI 推理速度成为新竞争维度的 2026 年，这本身就值得关注。