第09回 可视化 Transformer——探秘模型内部表示
灯下翻卷见墨痕,字里行间藏鬼神。
不求今日全参透,先学照妖认路人。
上回我们讲“预训练两条路”:
一条像读书人(MLM),一条像说书人(自回归)。可它们都把功夫练在一处——Transformer 的城里。
看官此时多半已能用模型做事,可心里又起第二问:
“它到底怎么想的?它看重哪几个词?它在中间那几千维里装了什么?”
本回就端上第一面“照妖镜”:可视化与表示分析。
先说清楚边界:我们不是要把黑箱一刀切开,而是学会几种“把窗户擦亮”的办法,让你能更稳地调参、排错、避坑。
一、为什么要看内部:三件现实事
把模型当作纯 API,用着顺手也行;但你一旦要做系统,就绕不开这三件事:
- 排错:回答错了,是检索错、指令错,还是模型在某一步“看错了重点”?
- 对齐:你想让它少胡说、少偏见、少跑题,就要知道它“跑题时”内部像什么。
- 工程:长上下文与注意力很贵,哪里该剪、哪里该压缩,需要证据,而不是拍脑袋。
所以可视化不是猎奇,是做事的工具。
二、第一面镜子:注意力热力图(但别把它当判决书)
最常见的可视化是注意力矩阵:行是“谁在看”,列是“看谁”,格子越大表示越关注。
它能告诉你:
- 代词常回头看名词(“他”看“张三”)
- 句法关系会形成固定花纹(修饰词看中心词)
- 长文里有些头只盯近处,有些头会跨段跳跃
可也要立下规矩:
注意力权重不等于“解释”。
2019 年就有人系统质疑过把注意力当解释的做法:即便你改一改注意力分布,有时模型输出仍能保持不变,说明“注意力看起来合理”并不必然等价于“模型因它而下结论”。1
所以本书的口径是:
注意力热力图是线索,不是判决书。
三、第二面镜子:表示分析与“探针”(Probing)
如果注意力像“交通流”,表示(hidden states)就像“每个位置的内功”。
探针任务的思路很朴素:
- 先把模型某一层的表示取出来
- 再训练一个很小的分类器,看它能不能从这些表示里读出某个信息
例如:
- 词性(名词/动词)
- 是否是否定句
- 主谓关系大致位置
若小分类器很容易读出,说明这层表示里确实“装着”这种信息。
这类方法的价值在于:
它让你从“模型能做”走向“模型在何处形成某种能力”。
但它也有边界:读得出不代表模型一定用得上;读不出也不代表模型完全没学到(可能分布得更分散)。
四、第三面镜子:把“看见”变成“对照实验”
当你怀疑模型在某一步依赖了某段信息,你最靠谱的办法不是盯图发呆,而是做对照:
- 遮一遮:把某个词、某段上下文遮掉(或替换为无意义词),看输出是否变化
- 换一换:保留长度与格式,换掉关键事实,看模型是否跟着变
- 钉一钉:只让它引用某段证据回答,观察它是否能保持一致
这三招背后其实是同一个思想:
让“解释”有反事实对照。
有对照,你才能分清“它确实用到了”还是“它只是看起来像用到了”。
五、一个手算小例子:读懂注意力矩阵的“表情”
我们用一个玩具句子,只讲读法,不追求精确公式。
句子三词:
- 位置1:我
- 位置2:爱
- 位置3:你
假设某一层里,“爱”这个位置在看别人的权重(越大越关注)是:
| “爱”在看谁 | 我 | 爱 | 你 |
|---|---|---|---|
| 权重 | 0.10 | 0.15 | 0.75 |
你该怎么解读这张表?
- 它更像在“决定宾语”:0.75 盯着“你”,说明这个位置在整合信息时,把“你”当核心来源。
- 它没有完全忽略自己:0.15 看自己,常见于“保留当前词信息”。
- 它仍会回头看主语:0.10 看“我”,说明主谓关系也被纳入一点点。
再看另一种常见“花纹”:因果遮罩下,位置3(“你”)不能看未来,只能看过去。于是它的权重列里不可能出现“未来词”。
这种“上三角被压成零”的形状,你一眼就能辨认出:这是一种“从左到右写书”的规矩。
因此注意力可视化最有用的,不是你看懂每个格子的意义,而是你能认出几种“表情”:
- 盯近处:局部头
- 跨句跳:长程头
- 盯特殊符号:分隔与控制头
- 形成整齐条纹:位置与格式信号很强
认得这些表情,你做调试就不会只靠运气。
六、2024 的一条提醒:有些“图怪”不是你不会看
在视觉 Transformer 里,研究者发现一种现象:注意力图与特征图会出现“背景区域冒出高范数 token”的伪影,看起来像模型在不该聚焦的地方用力。
ICLR 2024 的工作提出给 ViT 额外加一些“寄存器 token(registers)”,让模型把内部计算更稳定地放到这些 token 上,既能改善表现,也能让注意力图更可解读。2
你把这事迁移到语言上,就能得到一个实用经验:
你看到的“怪相”,不一定是模型胡来,也可能是架构把内部计算塞在了你没预料的位置。
所以可视化要配合对照实验;只看图不做实验,很容易“看得越多,误会越深”。
七、小结:三句话拿走本回
- 注意力图是线索,不是判决书
- 探针能告诉你“信息在哪一层出现”,但不保证“模型一定用它”
- 真正靠谱的解释,离不开反事实对照
下一回要回到更宏大的问题:
为什么“更大、训得更久”常常更聪明?为什么会出现“涌现”?又为何 MoE 能用更小的计算换更大的容量?
第10回《LLM 的进化——扩展定律、涌现与混合专家》,就要开讲。
幻觉核查
- “Attention is not Explanation”条目核对:arXiv:1902.10186,作者 Jain、Wallace,2019 年版本信息可在 arXiv 页面核验。1
- “Vision Transformers Need Registers”条目核对:arXiv:2309.16588,论文标注 ICLR 2024,可在 ICLR/ArXiv 页面核验。2
- 本回所有关于“注意力图的边界”的表述均为方法论提醒,不涉及具体数值结论,避免凭空编造指标。
逻辑审计
- 与第08回对齐:第08回讲“训练目标塑造性格”,本回解释“性格形成后如何观察内功与交通流”。
- 与第10回衔接:第10回讲扩展与 MoE,需要读者理解“能力变化”不只看输出,也要学会用内部信号与对照实验验证。
- 难度控制:仅用表格与直觉解释权重含义,不引入超出高二的矩阵推导。
引用与溯源
Footnotes
-
Jain, S., Wallace, B. C. Attention is not Explanation arXiv:1902.10186(2019-02)https://arxiv.org/abs/1902.10186 ↩ ↩2
-
Darcet, T., Oquab, M., Mairal, J., Bojanowski, P. Vision Transformers Need Registers arXiv:2309.16588(ICLR 2024)https://arxiv.org/abs/2309.16588 ↩ ↩2