最高降价 99%,小米 MiMo 首次公开模型推理系统全链路优化技术细节

AI 新资讯7小时前发布 浩渺
754 0 0
熊猫办公

5 月 30 日消息,5 月 27 日,小米 MiMo-V2.5 系列 API 完成永久降价,最高降幅达 99%,不区分输入长度。今日,小米正式公开 MiMo-V2.5 系列模型的推理系统全链路优化方案。

最高降价 99%,小米 MiMo 首次公开模型推理系统全链路优化技术细节 width=”1080″ height=”1432″>

据介绍,该团队围绕 Hybrid SWA + MoE + 多模态的复合架构,系统性重构了从 KVCache 管理、分级缓存、前缀缓存到调度策略与 Prefill / Decode 链路的完整推理栈,KVCache 存储压缩至同级方案的约 1/7,在长序列场景下推理成本大幅下降 —— 这是本次降价的核心技术基础。

这也是业内首篇全面覆盖 Hybrid SWA + MoE + 多模态组合架构的大规模工程落地方案。模型能力没有任何缩减 —— 精进的是推理系统工程能力本身:同一个模型,相同硬件,更高吞吐,更低延迟,可以服务更多人

最高降价 99%,小米 MiMo 首次公开模型推理系统全链路优化技术细节 width=”985″ height=”458″>

IT之家附主要内容如下:

1、为什么选择 Hybrid SWA 架构?

大模型推理的核心开销来自 KVCache。模型生成每一个 token 时,需要将全部历史上下文以键值对形式缓存在 GPU 显存中。上下文越长,缓存越大,可并发请求越少,单次推理成本越高。这是当前所有大模型服务共同面对的核心经济约束。

MiMo-V2.5-Pro 的设计选择是从架构层面打破这一约束。70 层 Transformer 中,仅 10 层使用 Full Attention(完整注意力),其余 60 层使用 Sliding Window Attention(滑动窗口大小 128 token)。绝大部分网络层只需存储最近 128 个 token 的信息,整体 KVCache 存储需求降至全 Full Attention 方案的约 1/7。

同时,由于 SWA 层的注意力计算量也从全序列缩减到窗口大小,Prefill 阶段的计算成本同样降至约 1/7。Decode 阶段的延迟与 KVCache 读取量正相关,长序列场景下这一存储压缩几乎直接等价于推理成本的等比例下降。两者叠加,Hybrid SWA 在 Prefill 和 Decode 阶段同时受益。短文场景性价比接近,序列越长,推理成本优势越大。

最高降价 99%,小米 MiMo 首次公开模型推理系统全链路优化技术细节 width=”1080″ height=”277″>

但架构上的“应该省”和线上的“真的省”之间,隔着一整套推理系统的适配工程。

MiMo-V2 系列上线之初,主流开源推理框架对 SWA 的支持并不完整 —— 早期实现实质上是“以存储 Full KVCache 的代价来兼容 SWA”。Hybrid SWA 显著增加了缓存命中判定、前缀匹配、双语义一致性维护的复杂度;在真实系统中,多级存储的数据搬运、异步预取与分布式缓存状态的一致性问题,共同使理论收益难以直接落地。我们需要让推理系统真正“理解” Hybrid SWA 的存储特性,将每一项理论优势逐一兑现为工程收益。

2、工程化实践,从“理论上省”到“真的省”

明确了 Hybrid SWA 在架构层面“能省多少”之后,接下来的挑战是:如何让推理系统真正适配它的特性,把架构优势转化为真实的效率提升?

我们的工作围绕三个递进的问题展开:缓存能不能真正省下来?省下来的空间能不能真正用起来?最终的生成速度能不能真正快起来?

KVCache 系统重构:让缓存真正省下来

要兑现 Hybrid SWA 的效率优势,第一步是让 KVCache 管理系统真正区分两种截然不同的缓存需求。

双池分治。传统推理系统为所有层统一分配 KVCache 空间,按最大需求配置。我们将 KVCache 拆分为 Full KV Pool 与 SWA KV Pool 两个独立池:Full KV Pool 按需增长、长期保存;SWA KV Pool 仅按窗口大小配置容量,采用环形缓冲区设计,支持基于窗口的独立淘汰,存储严格限制在 O (W) 规模。对上层调度器和前缀树仍暴露统一序列视图,由 Full Attention 索引作为权威索引并维护到 SWA 的映射关系。通过这一设计,KVCache 容量效率实现约 7 倍提升。SWA 层的 KVCache 预取可在 layerwise 粒度实现完美 overlap,Cache 读取成本接近于零。

存储省下来了,下一个问题是:已经算过的结果能不能复用?这取决于前缀缓存能否在 SWA 模式下正确工作。

前缀缓存树重构。传统前缀缓存的匹配规则建立在“token 序列相等 → KV 也相等”这一假设上 —— 在 SWA 模式下这条假设被打破了。前缀树节点的逻辑生命周期与 SWA KV 的物理生命周期不一致,一个节点对应的 SWA KV 可能只剩尾部一小段甚至已完全被释放,传统规则会给出“伪命中”。我们从三处改造前缀树语义:将匹配规则升级为“窗口安全长度”(尾部至少 W 个 token 仍有有效 slot);将淘汰路径与请求生命周期绑定,确保 SWA 池占用恒定在窗口量级;每个节点同时承载 Full Attention 段索引与 SWA 段映射,支持独立淘汰策略。线上前缀缓存命中率平均达到 93%,高频用户超过 95%。

解决了“算过的能复用”之后,还有一个现实问题:用户对话有时间间隔,缓存放在显存里太贵,丢掉又要重算。

GCache 三级缓存。小米存储团队自研 GCache—— 同时支持 GPU 显存、CPU 内存和 NVMe SSD 的高性能分布式缓存系统。KVCache 按访问热度在三级间自动流转:活跃数据驻留显存,冷数据降级到内存或 SSD,用户返回时快速恢复。GCache 优先在 GPU 机器上混部,接管节点的部分内存与自带 SSD,额外存储成本为零。通过 RDMA 通信实现单进程 170 GB/s 读吞吐、280μs 延迟。结合 SWA 的极小存储占用,相同成本下可承载的缓存量成倍提升,KVCache 被迫淘汰的压力大幅降低,留存窗口显著延长 —— 缓存命中率由此水涨船高。

将上述三项优化综合来看:SWA 把缓存体积压到 1/7 是容量层面的收益,前缀缓存重构和 GCache 带来的高命中率是复用层面的收益。两者相乘,才是 Prefill 阶段实际计算成本的真实曲线。

调度与 Prefill 优化:让省下的空间真正用起来

缓存省下来了、复用率也上去了,但如果调度和计算链路不做相应适配,省出来的显存空间和算力余量就只是“纸面富余”。

KVCache 亲和与优先调度。Agentic 场景下,请求长度差异巨大。传统 FCFS 调度不区分命中率高低、计算量大小,导致缓存命中率高但实际计算量小的请求被长请求阻塞。我们在 Router 侧实现 KVCache 亲和调度 —— 优先选择已缓存当前请求前缀的节点,同时兼顾负载均衡,L2 缓存命中率提升约 25%。同时引入计算量感知优先调度,优先处理真实计算 token 数更少的请求,辅以等待时间惩罚机制避免饥饿。TTFT P90 降低 30%。

调度把请求送到了正确的节点,接下来是 Prefill 链路本身的计算效率。

EP 缩减与分桶策略。SWA KVCache 优化使 GPU 卡显存余量大幅增加,我们将 Expert Parallelism 缩减至原先的 1/2—— 跨机通信更少、负载差异更小、每台机器承载 expert 更多,端到端 Prefill 性能提升约 40%。同时采用三级长度分桶策略(0–64K / 64K–256K / 256K–1M),将负载特征相近的请求聚合调度,避免短请求被长请求拖慢,显著提升线上 Prefill 平均吞吐。

Decode 加速与多模态优化:让生成速度真正快起来

Prefill 完成后进入 Decode 阶段 —— 逐 token 输出。这一阶段的核心瓶颈与 Prefill 不同:不是计算量大,而是显存被 KVCache 占满导致 batch size 无法扩展,GPU 算力打不满。

显存扩容与 MTP 投机解码。Decode 端 KVCache 完整支持 SWA 后,有效容量提升近 5 倍,结合 CUDA Graph 显存调优与 PD 分离中的预分配优化,单节点并发能力显著增强。MiMo-V2.5 原生支持 3 层 MTP(Multi-Token Prediction)加速输出 —— 模型每步并行预测多个候选 token,验证通过后一次性输出。通过在 Prefill 阶段引入 MTP 并完成 HiCache 多级适配,前 128 token 加速比达到 2.3×,128–256 token 达到 1.5×。Agentic 场景下大部分输出序列较短,该优化直接降低了真实 Decode 成本。

文本推理之外,多模态推理链路同样是用户体验的关键环节。

多模态链路并行化。MiMo-V2.5 系列支持视觉、音频、视频跨模态理解。Encoder 支持跨请求组 Batch,多个请求的 image / audio 融合为一次 Forward 再按请求切分返回;图片预处理迁移至 GPU 消除大图场景下 CPU 瓶颈;视频解码切分为多 chunk 多线程并行处理,1 小时视频端到端延时从 156 秒降至 23 秒。通过一致性哈希和机内共享内存实现 Embedding 缓存共享,整体 Encoder 吞吐提升至 2 倍。

3、让 Hybrid SWA 被更多人用起来

MiMo-V2.5 系列的推理效率并非来自某一环节的单点突破,而是多维度协同优化的结果。Hybrid SWA 让 Prefill 与 Decode 同时受益,但未经充分优化的 KVCache 实现反而会在各环节抬高成本。

围绕这一核心矛盾,我们系统性重构了 KVCache 管理、分级缓存、前缀缓存树、调度策略及 Prefill / Decode 链路,攻克 SWA KVCache 的核心工程问题并经线上真实场景检验,最终将其理论效率优势真正兑现到生产环境。再结合 MoE 配置与多模态推理的系统性优化,整体线上推理服务性能得到显著提升。

至此,Hybrid SWA 才真正展现出它应有的样子:一个在长文推理上兼具强度与效率的模型架构。

作为首篇全面覆盖 Hybrid SWA + MoE + 多模态组合架构的大规模工程落地方案,我们将由此节省的成本以 API 降价回馈用户。同时,我们已将部分优化以 PR 形式回馈 SGLang 开源社区,并将持续推进更多开源计划,希望让工程优化不再成为门槛,使这类兼具强度与效率的复合架构得到更广泛的探索与应用。

© 版权声明

相关文章