第41回　后 Transformer 时代——SSM、Mamba 与高效注意力

长卷千行皆要看，回头翻页费时长。
若能一路挑重点，百万字里也不慌。

第四篇我们讲到“能办事”的智能体：有记忆、有流程、有验证、有协作。
可你若真把它搬到生产场景，就会撞上一堵墙：上下文越来越长。

长到什么程度？
长到你不只是“读一段文档”，而是要让系统：

读整套制度
翻全量聊天史
追跨月的工单链路

这时候，Transformer 的老毛病就会很刺眼：

注意力看得越多，账就越贵。

这一回我们讲两条“后 Transformer”路线：

把注意力做得更省（高效注意力、KV cache、稀疏与线性化）
干脆少用注意力（状态空间模型 SSM，代表作 Mamba）

一、为什么长上下文这么贵：高二直觉版的 O(N²)

看官只用记一个直觉：
注意力做的是“互相打分”。

如果你有 N 个 token，每个 token 都要和其他 token 算相似度：
大概就是 N×N 级别的工作量——也就是常说的 O(N²)。

把它换成生活话：

N 个人开会
每个人都要和所有人都对一遍意见

人一多，会就开不完。

而且别忘了还要“记账”：推理时要保存 Key/Value 缓存（KV cache）给后续 token 用。
长上下文不仅算得多，还占得多。

这就是为什么“效率”成了 2024–2026 的必修课：不是为了省电，而是为了让系统敢用长上下文。

二、路线 A：高效注意力——不改门派，先练轻功

这一派的心法是：
Transformer 仍然好用，先别推翻，先把“算得更快、更省”做扎实。

高效注意力的研究非常杂，但可以粗分为两类（相关综述有系统梳理）：¹

稀疏/分块注意力：不是所有 token 都互相看，只看部分
近似/线性注意力：用数学技巧把二次复杂度压到近似线性

工程侧则还有一条更“务实”的路：
专门为 GPU 内存层级写高性能内核，让同样的注意力跑得更快、更省。
这类工作让“长上下文”从论文里的概念，变成服务端的现实选项。¹

你可以把它理解成：

刀还是那把刀，先把刀磨快、刀鞘做轻。

三、路线 B：SSM 与 Mamba——换成“行军记”式的长序列模型

另一派更激进：
既然“全互看”太贵，那就别让它全互看。

状态空间模型（SSM）的直觉像“行军记”：

你不会每走一步都把前面所有路再走一遍
你会用一个“状态”把过去压缩成摘要
每来一个新 token，就更新一次状态

Mamba 就是把这条思路做到语言模型尺度的代表作之一：
它强调一种“选择性”的机制，让模型在长序列里学会挑重点记。²

如果把 Transformer 比作“翻卷宗”：
每写一页都要回头翻一遍；
那么 Mamba 更像“边走边记要点”：
一路更新状态，不必次次回头。

而 Mamba-2（通过结构化状态空间的对偶视角）进一步把这条路线讲得更一般、更系统。³

四、折中派：混合架构——既要会看全局，也要能走长路

江湖里常见一个朴素结论：

注意力擅长“找关系”：谁和谁有关
SSM 擅长“走长路”：长序列效率高

那能不能两者都要？

Jamba 就是这类“折中派”的代表：
它把 Transformer 与 Mamba 层交错，并结合 MoE，在长上下文上追求更好的吞吐与内存占用，同时维持语言建模性能。⁴

你不必把它当成“最终答案”，但它说明了一件事：
后 Transformer 时代不是单选题，而可能是一套组合拳。

五、这一回的“慢剑”落点：效率改变系统设计

看官别把这一回当成“模型结构科普”。
它真正影响的是系统层：

长上下文变便宜，你就敢把更多证据塞进工作流
KV cache 变小，你就敢让更多并发请求一起跑
推理更快，你就敢把验证器挂得更密

这就回到了导读里的承诺：
2026 年的“聪明”，很多时候不是参数更大，而是推理时能走更多步、看更多证据、做更多校验。

下一回（第42回）我们再换一个“后时代”主题：
原生多模态——把文字、图像、视频都当成 token，一锅炖进同一套预测里。

欲知后事如何，且听下回分解。

幻觉核查

Mamba 的“选择性状态空间 + 线性时间序列建模”主张：可核对论文摘要与方法部分。²
Mamba-2（SSM 对偶视角/算法体系化）：可核对论文摘要与主要贡献。³
Jamba 的“Transformer-Mamba 混合 + MoE + 长上下文（如 256K）”描述：可核对论文摘要与实验设置。⁴
“高效注意力机制的两大类”是科普归纳，细分与具体方法谱系以综述为准。¹

逻辑审计

与导读一致：导读把 2024–2026 的跃迁归因于“推理时多走几步”，长上下文与高效推理是“多走几步”的硬件条件。
与第三、四篇一致：RAG/工作流/验证都需要上下文与证据；效率提升改变可用的证据预算。
为第42回铺路：既然 token 可以很长，那么 token 也可以不止是文字；多模态统一就顺理成章。

引用与溯源

Li, Z., et al. Efficient Attention Mechanisms for Large Language Models: A Survey arXiv:2507.19595 (v3: 2026-02-07) https://arxiv.org/abs/2507.19595 ↩ ↩² ↩³
Gu, A., Dao, T. Mamba: Linear-Time Sequence Modeling with Selective State Spaces arXiv:2312.00752 (v2: 2024-05-31) https://arxiv.org/abs/2312.00752 ↩ ↩²
Dao, T., Gu, A. Transformers are SSMs: Generalized Models and Efficient Algorithms Through Structured State Space Duality arXiv:2405.21060 (2024-05) https://arxiv.org/abs/2405.21060 ↩ ↩²
Lieber, O., et al. Jamba: A Hybrid Transformer-Mamba Language Model arXiv:2403.19887 (v2: 2024-07-03) https://arxiv.org/abs/2403.19887 ↩ ↩²

第41回 后 Transformer 时代——SSM、Mamba 与高效注意力