第44回　拆解“念头”——稀疏自编码器与字典学习

城中念头像乱麻，缠在一处难分家。
若能抽丝成字典，万象方可逐一查。

第43回我们讲“推理要过验门”：过程要可执行、可验证、可复现。
可看官还会追问更深一层：

它为什么会这样想？我们能不能摸到它的“念头”？

这就进入机械可解释性（mechanistic interpretability）的江湖。
而 2024–2026 年最热的一条工具链，正是稀疏自编码器（Sparse Autoencoder, SAE）与字典学习。

一、为什么要 SAE：因为“一个神经元多种意思”

大模型像一座大城：
同一个方向里可能混着“桥”“政治”“代码风格”“某个梗”……
这种“纠缠”会让你很难说清：

这类纠缠在可解释性里常被讨论为“多义性/叠加”等问题。
SAE 的目标，就是把这种纠缠拆成一组更稀疏、更可命名的“特征”。

你可以把它想成：

在直觉层面，SAE 做两件事：

稀疏意味着：
每次只点亮少数特征——更像“念头列表”，不太像“雾状混合物”。

一篇 ICLR 2024 的工作展示了：
SAE 可以在语言模型的残差流中找到许多高度可解释的特征，并被视为一种可扩展的无监督拆解方法。¹

而 2025 年的综述则从框架、训练策略、解释方法与评估指标等角度系统梳理了 SAE 路线，并讨论其在理解与操控行为方面的应用。²

一旦你能把激活拆成“特征”，就会自然产生一个危险也诱人的念头：

这就是“特征转向/激活操控”的想法来源之一。
导读里提到的“Golden Gate Bridge”等现象，正是在这种语境下被讨论的：
你像调音台一样调内部特征，输出就会随之偏转。

但看官要记住：
能调音不代表你真正懂音乐；
能操控不代表副作用可控。

2025 年也出现了更谨慎的声音：
有工作明确提出一个立场——
SAE 更适合用来“发现未知概念”，而不应被直接当作大规模概念检测或行为控制的万能工具，并讨论了与简单基线相比可能出现的落差与误解。³

这与第43回“推理的边界”是同一套哲学：

否则可解释性也会产生“可解释性的幻觉”——
看起来像理解，实际上只是换了个词讲不清。

这一回你记住三句话：

下一回（第45回）我们把“能干预”讲到安全边界：
模型操控与安全——当你能调内部表示，你既能做更细的对齐，也可能打开新的攻击面。

欲知后事如何，且听下回分解。

Bricken, T., et al. Sparse Autoencoders Find Highly Interpretable Features in Language Models (ICLR 2024 submission page) https://openreview.net/forum?id=F76bwRSLeK ↩ ↩²
Shu, D., et al. A Survey on Sparse Autoencoders: Interpreting the Internal Mechanisms of Large Language Models arXiv:2503.05613 (v3: 2025-09-23) https://arxiv.org/abs/2503.05613 ↩ ↩²
Use Sparse Autoencoders to Discover Unknown Concepts, Not to Act as Concept Detectors arXiv:2506.23845 (v1: 2025-06) https://arxiv.org/abs/2506.23845 ↩ ↩²