第09回　可视化 Transformer——探秘模型内部表示

灯下翻卷见墨痕，字里行间藏鬼神。
不求今日全参透，先学照妖认路人。

上回我们讲“预训练两条路”：
一条像读书人（MLM），一条像说书人（自回归）。可它们都把功夫练在一处——Transformer 的城里。

看官此时多半已能用模型做事，可心里又起第二问：
“它到底怎么想的？它看重哪几个词？它在中间那几千维里装了什么？”

本回就端上第一面“照妖镜”：可视化与表示分析。
先说清楚边界：我们不是要把黑箱一刀切开，而是学会几种“把窗户擦亮”的办法，让你能更稳地调参、排错、避坑。

一、为什么要看内部：三件现实事

把模型当作纯 API，用着顺手也行；但你一旦要做系统，就绕不开这三件事：

排错：回答错了，是检索错、指令错，还是模型在某一步“看错了重点”？
对齐：你想让它少胡说、少偏见、少跑题，就要知道它“跑题时”内部像什么。
工程：长上下文与注意力很贵，哪里该剪、哪里该压缩，需要证据，而不是拍脑袋。

所以可视化不是猎奇，是做事的工具。

二、第一面镜子：注意力热力图（但别把它当判决书）

最常见的可视化是注意力矩阵：行是“谁在看”，列是“看谁”，格子越大表示越关注。

它能告诉你：

代词常回头看名词（“他”看“张三”）
句法关系会形成固定花纹（修饰词看中心词）
长文里有些头只盯近处，有些头会跨段跳跃

可也要立下规矩：
注意力权重不等于“解释”。
2019 年就有人系统质疑过把注意力当解释的做法：即便你改一改注意力分布，有时模型输出仍能保持不变，说明“注意力看起来合理”并不必然等价于“模型因它而下结论”。¹

所以本书的口径是：
注意力热力图是线索，不是判决书。

三、第二面镜子：表示分析与“探针”（Probing）

如果注意力像“交通流”，表示（hidden states）就像“每个位置的内功”。

探针任务的思路很朴素：

先把模型某一层的表示取出来
再训练一个很小的分类器，看它能不能从这些表示里读出某个信息

例如：

词性（名词/动词）
是否是否定句
主谓关系大致位置

若小分类器很容易读出，说明这层表示里确实“装着”这种信息。

这类方法的价值在于：
它让你从“模型能做”走向“模型在何处形成某种能力”。
但它也有边界：读得出不代表模型一定用得上；读不出也不代表模型完全没学到（可能分布得更分散）。

四、第三面镜子：把“看见”变成“对照实验”

当你怀疑模型在某一步依赖了某段信息，你最靠谱的办法不是盯图发呆，而是做对照：

遮一遮：把某个词、某段上下文遮掉（或替换为无意义词），看输出是否变化
换一换：保留长度与格式，换掉关键事实，看模型是否跟着变
钉一钉：只让它引用某段证据回答，观察它是否能保持一致

这三招背后其实是同一个思想：
让“解释”有反事实对照。
有对照，你才能分清“它确实用到了”还是“它只是看起来像用到了”。

五、一个手算小例子：读懂注意力矩阵的“表情”

我们用一个玩具句子，只讲读法，不追求精确公式。

句子三词：

位置1：我
位置2：爱
位置3：你

假设某一层里，“爱”这个位置在看别人的权重（越大越关注）是：

“爱”在看谁	我	爱	你
权重	0.10	0.15	0.75

你该怎么解读这张表？

它更像在“决定宾语”：0.75 盯着“你”，说明这个位置在整合信息时，把“你”当核心来源。
它没有完全忽略自己：0.15 看自己，常见于“保留当前词信息”。
它仍会回头看主语：0.10 看“我”，说明主谓关系也被纳入一点点。

再看另一种常见“花纹”：因果遮罩下，位置3（“你”）不能看未来，只能看过去。于是它的权重列里不可能出现“未来词”。
这种“上三角被压成零”的形状，你一眼就能辨认出：这是一种“从左到右写书”的规矩。

因此注意力可视化最有用的，不是你看懂每个格子的意义，而是你能认出几种“表情”：

盯近处：局部头
跨句跳：长程头
盯特殊符号：分隔与控制头
形成整齐条纹：位置与格式信号很强

认得这些表情，你做调试就不会只靠运气。

六、2024 的一条提醒：有些“图怪”不是你不会看

在视觉 Transformer 里，研究者发现一种现象：注意力图与特征图会出现“背景区域冒出高范数 token”的伪影，看起来像模型在不该聚焦的地方用力。
ICLR 2024 的工作提出给 ViT 额外加一些“寄存器 token（registers）”，让模型把内部计算更稳定地放到这些 token 上，既能改善表现，也能让注意力图更可解读。²

你把这事迁移到语言上，就能得到一个实用经验：

你看到的“怪相”，不一定是模型胡来，也可能是架构把内部计算塞在了你没预料的位置。

所以可视化要配合对照实验；只看图不做实验，很容易“看得越多，误会越深”。

七、小结：三句话拿走本回

注意力图是线索，不是判决书
探针能告诉你“信息在哪一层出现”，但不保证“模型一定用它”
真正靠谱的解释，离不开反事实对照

下一回要回到更宏大的问题：
为什么“更大、训得更久”常常更聪明？为什么会出现“涌现”？又为何 MoE 能用更小的计算换更大的容量？

第10回《LLM 的进化——扩展定律、涌现与混合专家》，就要开讲。

幻觉核查

“Attention is not Explanation”条目核对：arXiv:1902.10186，作者 Jain、Wallace，2019 年版本信息可在 arXiv 页面核验。¹
“Vision Transformers Need Registers”条目核对：arXiv:2309.16588，论文标注 ICLR 2024，可在 ICLR/ArXiv 页面核验。²
本回所有关于“注意力图的边界”的表述均为方法论提醒，不涉及具体数值结论，避免凭空编造指标。

逻辑审计

与第08回对齐：第08回讲“训练目标塑造性格”，本回解释“性格形成后如何观察内功与交通流”。
与第10回衔接：第10回讲扩展与 MoE，需要读者理解“能力变化”不只看输出，也要学会用内部信号与对照实验验证。
难度控制：仅用表格与直觉解释权重含义，不引入超出高二的矩阵推导。

引用与溯源

Jain, S., Wallace, B. C. Attention is not Explanation arXiv:1902.10186（2019-02）https://arxiv.org/abs/1902.10186 ↩ ↩²
Darcet, T., Oquab, M., Mairal, J., Bojanowski, P. Vision Transformers Need Registers arXiv:2309.16588（ICLR 2024）https://arxiv.org/abs/2309.16588 ↩ ↩²

第09回 可视化 Transformer——探秘模型内部表示