第41回 后 Transformer 时代——SSM、Mamba 与高效注意力

长卷千行皆要看,回头翻页费时长。
若能一路挑重点,百万字里也不慌。

第四篇我们讲到“能办事”的智能体:有记忆、有流程、有验证、有协作。
可你若真把它搬到生产场景,就会撞上一堵墙:上下文越来越长

长到什么程度?
长到你不只是“读一段文档”,而是要让系统:

  • 读整套制度
  • 翻全量聊天史
  • 追跨月的工单链路

这时候,Transformer 的老毛病就会很刺眼:

注意力看得越多,账就越贵。

这一回我们讲两条“后 Transformer”路线:

  1. 把注意力做得更省(高效注意力、KV cache、稀疏与线性化)
  2. 干脆少用注意力(状态空间模型 SSM,代表作 Mamba)

一、为什么长上下文这么贵:高二直觉版的 O(N²)

看官只用记一个直觉:
注意力做的是“互相打分”。

如果你有 N 个 token,每个 token 都要和其他 token 算相似度:
大概就是 N×N 级别的工作量——也就是常说的 O(N²)

把它换成生活话:

  • N 个人开会
  • 每个人都要和所有人都对一遍意见

人一多,会就开不完。

而且别忘了还要“记账”:推理时要保存 Key/Value 缓存(KV cache)给后续 token 用。
长上下文不仅算得多,还占得多。

这就是为什么“效率”成了 2024–2026 的必修课:不是为了省电,而是为了让系统敢用长上下文


二、路线 A:高效注意力——不改门派,先练轻功

这一派的心法是:
Transformer 仍然好用,先别推翻,先把“算得更快、更省”做扎实。

高效注意力的研究非常杂,但可以粗分为两类(相关综述有系统梳理):1

  1. 稀疏/分块注意力:不是所有 token 都互相看,只看部分
  2. 近似/线性注意力:用数学技巧把二次复杂度压到近似线性

工程侧则还有一条更“务实”的路:
专门为 GPU 内存层级写高性能内核,让同样的注意力跑得更快、更省。
这类工作让“长上下文”从论文里的概念,变成服务端的现实选项。1

你可以把它理解成:

刀还是那把刀,先把刀磨快、刀鞘做轻。


三、路线 B:SSM 与 Mamba——换成“行军记”式的长序列模型

另一派更激进:
既然“全互看”太贵,那就别让它全互看。

状态空间模型(SSM)的直觉像“行军记”:

  • 你不会每走一步都把前面所有路再走一遍
  • 你会用一个“状态”把过去压缩成摘要
  • 每来一个新 token,就更新一次状态

Mamba 就是把这条思路做到语言模型尺度的代表作之一:
它强调一种“选择性”的机制,让模型在长序列里学会挑重点记。2

如果把 Transformer 比作“翻卷宗”:
每写一页都要回头翻一遍;
那么 Mamba 更像“边走边记要点”:
一路更新状态,不必次次回头。

而 Mamba-2(通过结构化状态空间的对偶视角)进一步把这条路线讲得更一般、更系统。3


四、折中派:混合架构——既要会看全局,也要能走长路

江湖里常见一个朴素结论:

  • 注意力擅长“找关系”:谁和谁有关
  • SSM 擅长“走长路”:长序列效率高

那能不能两者都要?

Jamba 就是这类“折中派”的代表:
它把 Transformer 与 Mamba 层交错,并结合 MoE,在长上下文上追求更好的吞吐与内存占用,同时维持语言建模性能。4

你不必把它当成“最终答案”,但它说明了一件事:
后 Transformer 时代不是单选题,而可能是一套组合拳。


五、这一回的“慢剑”落点:效率改变系统设计

看官别把这一回当成“模型结构科普”。
它真正影响的是系统层:

  • 长上下文变便宜,你就敢把更多证据塞进工作流
  • KV cache 变小,你就敢让更多并发请求一起跑
  • 推理更快,你就敢把验证器挂得更密

这就回到了导读里的承诺:
2026 年的“聪明”,很多时候不是参数更大,而是推理时能走更多步、看更多证据、做更多校验

下一回(第42回)我们再换一个“后时代”主题:
原生多模态——把文字、图像、视频都当成 token,一锅炖进同一套预测里。

欲知后事如何,且听下回分解。


幻觉核查

  • Mamba 的“选择性状态空间 + 线性时间序列建模”主张:可核对论文摘要与方法部分。2
  • Mamba-2(SSM 对偶视角/算法体系化):可核对论文摘要与主要贡献。3
  • Jamba 的“Transformer-Mamba 混合 + MoE + 长上下文(如 256K)”描述:可核对论文摘要与实验设置。4
  • “高效注意力机制的两大类”是科普归纳,细分与具体方法谱系以综述为准。1

逻辑审计

  • 与导读一致:导读把 2024–2026 的跃迁归因于“推理时多走几步”,长上下文与高效推理是“多走几步”的硬件条件。
  • 与第三、四篇一致:RAG/工作流/验证都需要上下文与证据;效率提升改变可用的证据预算。
  • 为第42回铺路:既然 token 可以很长,那么 token 也可以不止是文字;多模态统一就顺理成章。

引用与溯源

Footnotes

  1. Li, Z., et al. Efficient Attention Mechanisms for Large Language Models: A Survey arXiv:2507.19595 (v3: 2026-02-07) https://arxiv.org/abs/2507.19595 2 3

  2. Gu, A., Dao, T. Mamba: Linear-Time Sequence Modeling with Selective State Spaces arXiv:2312.00752 (v2: 2024-05-31) https://arxiv.org/abs/2312.00752 2

  3. Dao, T., Gu, A. Transformers are SSMs: Generalized Models and Efficient Algorithms Through Structured State Space Duality arXiv:2405.21060 (2024-05) https://arxiv.org/abs/2405.21060 2

  4. Lieber, O., et al. Jamba: A Hybrid Transformer-Mamba Language Model arXiv:2403.19887 (v2: 2024-07-03) https://arxiv.org/abs/2403.19887 2