摘要
Transformer 的自注意力机制是当代大语言模型的核心引擎,也是其最大的效率瓶颈——标准因果注意力的计算复杂度随序列长度平方增长,KV Cache 的内存占用随上下文线性膨胀。到百万 token 级别,未经优化的注意力模块足以让任何 GPU 显存瞬间耗尽。2024 年末至 2026 年 6 月,DeepSeek 在不到两年时间里完成了注意力机制的三代跃迁:从 V3.2 的 DeepSeek Sparse Attention(DSA) 与 Lightning Indexer,到 V4 的 Compressed Sparse Attention(CSA) 与 Heavily Compressed Attention(HCA) 混合架构,再到 2026 年 6 月最新发布的 FlashMemory-DeepSeek-V4 中提出的 Lookahead Sparse Attention(LSA) 与 Neural Memory Indexer。这条技术路线正在重新定义「长上下文」的可能性边界。
一、问题的根源:注意力为何成为瓶颈
在标准 Transformer 解码器中,每一个新 token 的生成都需要与所有历史 token 进行注意力计算。对于一个长度为 N 的序列,单层注意力的时间复杂度为 O(N²),空间复杂度(KV Cache)为 O(N)。这意味着上下文翻倍,计算量翻四倍,KV Cache 翻倍。
更关键的是,KV Cache 并非一个可以简单压缩的辅助结构——它本质上是模型对已处理上下文的「工作记忆」。在自回归解码过程中,每生成一个 token 都需要重新读取全部 KV Cache。当模型厂商将上下文窗口从 128K 推向 1M token 时,KV Cache 成为限制并发吞吐量和 token 定价的核心瓶颈。正如 LMCache 团队所总结的:「降低 token 定价的关键,就是让 KV Cache 变小。」
业界对此的早期应对包括滑动窗口注意力(Sliding-Window Attention),即每个 token 只关注固定范围内的局部上下文。但这种方式将注意力模式硬编码为「局部性优先」,模型无法主动选择需要回顾的远距离信息。
二、V3.2 的破局:DeepSeek Sparse Attention 与 Lightning Indexer
2025 年 9 月,DeepSeek 在 V3.2 中引入了 DSA,从根本上改变了稀疏注意力的设计范式。不同于滑动窗口注意力将关注范围限制在固定局部窗口,DSA 让模型学习哪些历史 token 值得被关注。
DSA 由两个核心组件构成:
Lightning Indexer(闪电索引器):一个轻量级的评分模块,对每个新 query token,利用 MLA(Multi-head Latent Attention)的压缩 token 表示,计算与所有历史 token 的相关性分数。它维护一个较小的 key cache(每个 token 仅 128 维,而 MLA 标准为 512 维),因此索引开销远低于完整注意力。
Token Selector(Token 选择器):基于 Lightning Indexer 输出的分数,保留 top-k 个高分历史位置(DeepSeek 的实现中通常取 k=2048),将这些位置构成稀疏注意力掩码。被选中的 token 可以来自上下文的任意位置,不要求连续。
这一设计的核心突破在于:稀疏模式不再由人工预设,而是由模型根据输入内容动态学习。当模型处理一段长文本时,Lightning Indexer 能自动识别出与当前 query 最相关的远距离 token,无论它们出现在几千还是几万 token 之前。
从复杂度角度看,DSA 将注意力计算从 O(N²) 降低至 O(N·k),其中 k 为选中的 token 数量。在 V3.2 的实际部署中,DSA 与 MLA 协同工作——MLA 压缩 KV Cache 的存储表示,DSA 限制需要实际计算的注意力对数量。两者分别从「缓存表示」和「注意力模式」两个维度优化效率。
DSA 的影响力迅速扩展到 DeepSeek 之外。智谱在 GLM-5 中同时引入了 MLA 和 DSA,替换了此前 GLM-4.5 中更传统的注意力架构。Sebastian Raschka 在其 LLM 架构对比中将其列为当前效率导向架构栈的关键组件。
三、V4 的架构跃迁:CSA 与 HCA 的混合注意力
2026 年 4 月,DeepSeek 发布了 V4 预览版,将注意力机制的优化推向新高度。V4 的核心创新是一套混合注意力架构,将 Compressed Sparse Attention(CSA)和 Heavily Compressed Attention(HCA)交错部署在 Transformer 各层之间。
CSA:压缩 + 稀疏
CSA 在 DSA 的基础上增加了一个关键步骤:token 级压缩。它将每 m 个连续 token 的 KV Cache 通过一个可学习的压缩器合并为一条条目,然后在这个压缩后的表示上应用 DSA 的稀疏选择。这意味着 Lightning Indexer 不再需要在全部原始 token 上评分,而是在压缩后的「块表示」上进行索引,进一步降低了索引开销。
CSA 同时配备了一个滑动窗口注意力分支,覆盖最近的 n_win 个 token,确保模型对局部依赖关系保持高精度建模。
HCA:极致压缩 + 稠密注意力
HCA 采取的是另一种策略:将每 m' 个 token 的 KV Cache 高度压缩为一条(m' ≫ m,即压缩比远高于 CSA),然后对压缩后的表示执行完整的稠密注意力。由于压缩比足够高,即使使用全注意力,计算量也远低于原始序列。
HCA 的设计哲学可以理解为一种「以精度换广度」的权衡:它牺牲了对单个 token 细粒度信息的精确建模能力,换取让所有 token 参与注意力计算的能力。在 V4 中,这意味着模型拥有比 V3.2 强得多的「长期记忆」——它能够记住全部历史对话,让所有历史信息共同决定后续文本生成,而不是仅依赖稀疏选出的 1024 个 token。
效率数据
在百万 token 上下文的设定下,V4-Pro 的单 token 推理 FLOPs(等效 FP8)仅为 V3.2 的 27%,KV Cache 大小降至 10%。V4-Flash 则更为激进:FLOPs 降至 10%,KV Cache 降至 7%。整体 KV Cache 缩减约 10 倍,直接带来 2-3 倍的 token 生成吞吐量提升和相应的价格下降。
四、最新进展:FlashMemory 的 Lookahead Sparse Attention
2026 年 6 月 8 日,DeepSeek 团队在 arXiv 上提交了 FlashMemory-DeepSeek-V4 技术报告(arXiv:2606.09079),提出了 Lookahead Sparse Attention(LSA)——一种全新的推理范式,将稀疏注意力从「被动选择」升级为「主动预测」。
核心思想:从「回顾」到「前瞻」
传统注意力机制(包括 DSA 和 CSA)的核心逻辑是「回顾」:当前 token 计算与历史 token 的相关性,然后选择性地关注。LSA 则引入了「前瞻」逻辑:主动预测未来 token 可能需要哪些上下文信息,并仅保留这些查询关键(query-critical)的 KV 块在 GPU 显存中。
这一范式转变由一个新的组件驱动——Neural Memory Indexer(神经记忆索引器)。与 DSA 的 Lightning Indexer 不同,Neural Memory Indexer 不是简单地对历史 token 评分,而是学习预测未来的上下文需求。它被构建为一个标准的双编码器架构,可以独立于主模型进行训练。
解耦训练:无需加载主模型
LSA 最引人注目的工程创新在于其骨干网络无关的解耦训练策略(backbone-free decoupled training)。Neural Memory Indexer 使用标准检索训练框架独立训练,训练过程中完全不需要将庞大的主模型加载到 GPU 显存中。这意味着:
- 索引器可以针对任意已部署的 DeepSeek-V4 模型进行独立优化
- 训练成本极低,不需要万卡集群
- 索引器可以作为「即插即用」模块集成到现有推理管线中
实验结果
在 LongBench-v2、LongMemEval 和 RULER 等长上下文评测套件中,FM-DS-V4 将平均物理 KV Cache 占用压缩至全上下文基线的 13.5%,同时下游任务准确率不仅没有下降,反而实现平均 +0.6% 的绝对提升。在极端的 500K token 场景下,FlashMemory 将物理 KV Cache 开销压制至 10% 以下,且不破坏主模型的核心推理能力。
这一反直觉的结果——「更少的 KV Cache 反而带来更好的准确率」——揭示了 LSA 不仅是内存优化工具,更充当了有效的注意力去噪器:在需要长期全局记忆的任务中,过滤掉不相关的 KV 块实际上帮助模型集中注意力于真正关键的信息。
五、算法演进的内在逻辑
回顾 DeepSeek 三代注意力机制的演进,可以梳理出一条清晰的算法逻辑:
| 阶段 | 模型 | 核心机制 | 复杂度 | KV Cache(vs 全上下文) |
|---|---|---|---|---|
| 1 | V3.2 | DSA(Lightning Indexer + Token Selector) | O(N·k) | 100%(MLA 压缩表示) |
| 2 | V4 | CSA + HCA 混合 | O(N·k/m) | ~10% |
| 3 | FM-V4 | LSA(Neural Memory Indexer) | 预测式 | ~13.5%(+精度提升) |
每一步都解决前一代的遗留问题:DSA 解决了「关注哪些 token」的问题;CSA 在此基础上解决了「如何压缩后再关注」的问题;LSA 则从根本上改变了问题范式——从「回顾式选择」转向「前瞻式预测」。
值得注意的是,这条技术路线与 Google 在 Titans/MIRAS/Nested Learning 系列中探索的「测试时学习」方向形成了有趣的呼应。两者都试图让模型在推理阶段拥有更智能的记忆管理能力,但路径不同:Google 侧重让模型在推理时动态更新权重,DeepSeek 则侧重让模型在推理时动态选择记忆内容。这两条路线可能在未来走向融合。
六、行业影响与展望
DSA 及其后继者正在改变 LLM 部署的经济学。DeepSeek V4-Pro 的 API 定价为每百万输出 token 0.87 美元,而同等能力的闭源模型通常在 15-30 美元区间。这一差距的根源不仅是开源策略,更在于注意力机制的效率革命——KV Cache 缩小 10 倍意味着相同的 GPU 可以服务 10 倍的并发请求。
从更广的视角看,2026 年的注意力机制创新已进入密集迭代期。GLM-5 引入 DSA、Gemma 4 探索 KV 共享、Laguna XS.2 提出逐层注意力预算分配、ZAYA1-8B 尝试压缩卷积注意力——这些探索共同指向一个趋势:Transformer 的注意力机制正在从一个「通用组件」演变为一个高度可定制、任务自适应的架构空间。未来模型的注意力模式可能不再是统一的,而是根据层深度、任务类型和上下文长度动态切换。
对于算法工程师和系统设计者而言,理解稀疏注意力的演进逻辑已不仅是学术兴趣,而是直接影响生产系统成本与性能的工程决策。DeepSeek 用三代模型证明:在算力 Scaling Law 之外,算法创新同样能带来数量级的效率提升。
来源:
- FlashMemory-DeepSeek-V4: Lightning Index Ultra-Long Context via Lookahead Sparse Attention (arXiv:2606.09079, 2026-06-08)
- DeepSeek Sparse Attention — Sebastian Raschka, LLM Architecture Gallery
- DeepSeek AI Releases DeepSeek-V4: CSA and HCA Enable One-Million-Token Contexts — MarkTechPost (2026-04-24)
- DeepSeek V4 explained, and why it matters to your wallet — LMCache Blog (2026-05-04)
- DeepSeek-V3.2: Pushing the Frontier of Open Large Language Models (arXiv:2512.02556)

