第41回 后 Transformer 时代——SSM、Mamba 与高效注意力
长卷千行皆要看,回头翻页费时长。
若能一路挑重点,百万字里也不慌。
第四篇我们讲到“能办事”的智能体:有记忆、有流程、有验证、有协作。
可你若真把它搬到生产场景,就会撞上一堵墙:上下文越来越长。
长到什么程度?
长到你不只是“读一段文档”,而是要让系统:
- 读整套制度
- 翻全量聊天史
- 追跨月的工单链路
这时候,Transformer 的老毛病就会很刺眼:
注意力看得越多,账就越贵。
这一回我们讲两条“后 Transformer”路线:
- 把注意力做得更省(高效注意力、KV cache、稀疏与线性化)
- 干脆少用注意力(状态空间模型 SSM,代表作 Mamba)
一、为什么长上下文这么贵:高二直觉版的 O(N²)
看官只用记一个直觉:
注意力做的是“互相打分”。
如果你有 N 个 token,每个 token 都要和其他 token 算相似度:
大概就是 N×N 级别的工作量——也就是常说的 O(N²)。
把它换成生活话:
- N 个人开会
- 每个人都要和所有人都对一遍意见
人一多,会就开不完。
而且别忘了还要“记账”:推理时要保存 Key/Value 缓存(KV cache)给后续 token 用。
长上下文不仅算得多,还占得多。
这就是为什么“效率”成了 2024–2026 的必修课:不是为了省电,而是为了让系统敢用长上下文。
二、路线 A:高效注意力——不改门派,先练轻功
这一派的心法是:
Transformer 仍然好用,先别推翻,先把“算得更快、更省”做扎实。
高效注意力的研究非常杂,但可以粗分为两类(相关综述有系统梳理):1
- 稀疏/分块注意力:不是所有 token 都互相看,只看部分
- 近似/线性注意力:用数学技巧把二次复杂度压到近似线性
工程侧则还有一条更“务实”的路:
专门为 GPU 内存层级写高性能内核,让同样的注意力跑得更快、更省。
这类工作让“长上下文”从论文里的概念,变成服务端的现实选项。1
你可以把它理解成:
刀还是那把刀,先把刀磨快、刀鞘做轻。
三、路线 B:SSM 与 Mamba——换成“行军记”式的长序列模型
另一派更激进:
既然“全互看”太贵,那就别让它全互看。
状态空间模型(SSM)的直觉像“行军记”:
- 你不会每走一步都把前面所有路再走一遍
- 你会用一个“状态”把过去压缩成摘要
- 每来一个新 token,就更新一次状态
Mamba 就是把这条思路做到语言模型尺度的代表作之一:
它强调一种“选择性”的机制,让模型在长序列里学会挑重点记。2
如果把 Transformer 比作“翻卷宗”:
每写一页都要回头翻一遍;
那么 Mamba 更像“边走边记要点”:
一路更新状态,不必次次回头。
而 Mamba-2(通过结构化状态空间的对偶视角)进一步把这条路线讲得更一般、更系统。3
四、折中派:混合架构——既要会看全局,也要能走长路
江湖里常见一个朴素结论:
- 注意力擅长“找关系”:谁和谁有关
- SSM 擅长“走长路”:长序列效率高
那能不能两者都要?
Jamba 就是这类“折中派”的代表:
它把 Transformer 与 Mamba 层交错,并结合 MoE,在长上下文上追求更好的吞吐与内存占用,同时维持语言建模性能。4
你不必把它当成“最终答案”,但它说明了一件事:
后 Transformer 时代不是单选题,而可能是一套组合拳。
五、这一回的“慢剑”落点:效率改变系统设计
看官别把这一回当成“模型结构科普”。
它真正影响的是系统层:
- 长上下文变便宜,你就敢把更多证据塞进工作流
- KV cache 变小,你就敢让更多并发请求一起跑
- 推理更快,你就敢把验证器挂得更密
这就回到了导读里的承诺:
2026 年的“聪明”,很多时候不是参数更大,而是推理时能走更多步、看更多证据、做更多校验。
下一回(第42回)我们再换一个“后时代”主题:
原生多模态——把文字、图像、视频都当成 token,一锅炖进同一套预测里。
欲知后事如何,且听下回分解。
幻觉核查
- Mamba 的“选择性状态空间 + 线性时间序列建模”主张:可核对论文摘要与方法部分。2
- Mamba-2(SSM 对偶视角/算法体系化):可核对论文摘要与主要贡献。3
- Jamba 的“Transformer-Mamba 混合 + MoE + 长上下文(如 256K)”描述:可核对论文摘要与实验设置。4
- “高效注意力机制的两大类”是科普归纳,细分与具体方法谱系以综述为准。1
逻辑审计
- 与导读一致:导读把 2024–2026 的跃迁归因于“推理时多走几步”,长上下文与高效推理是“多走几步”的硬件条件。
- 与第三、四篇一致:RAG/工作流/验证都需要上下文与证据;效率提升改变可用的证据预算。
- 为第42回铺路:既然 token 可以很长,那么 token 也可以不止是文字;多模态统一就顺理成章。
引用与溯源
Footnotes
-
Li, Z., et al. Efficient Attention Mechanisms for Large Language Models: A Survey arXiv:2507.19595 (v3: 2026-02-07) https://arxiv.org/abs/2507.19595 ↩ ↩2 ↩3
-
Gu, A., Dao, T. Mamba: Linear-Time Sequence Modeling with Selective State Spaces arXiv:2312.00752 (v2: 2024-05-31) https://arxiv.org/abs/2312.00752 ↩ ↩2
-
Dao, T., Gu, A. Transformers are SSMs: Generalized Models and Efficient Algorithms Through Structured State Space Duality arXiv:2405.21060 (2024-05) https://arxiv.org/abs/2405.21060 ↩ ↩2
-
Lieber, O., et al. Jamba: A Hybrid Transformer-Mamba Language Model arXiv:2403.19887 (v2: 2024-07-03) https://arxiv.org/abs/2403.19887 ↩ ↩2