第45回 模型操控与安全——特征转向、表征工程与新风险
刀能削木也能伤,药能救人亦能毒。
若把心念当旋钮,须知旋错祸难赎。
第44回我们讲到:SAE 像一套“念头字典”,让我们第一次有机会拆解内部表示。
可一旦你能“看见”,你就会想“动手”:
- 把某类行为压下去(更安全)
- 把某类能力抬起来(更强)
- 把某种风格固定住(更一致)
这类思路在近年被统称为“表征工程/激活操控/Steering”。
它的要点是:不改输入、不改参数,而是直接在推理时改内部表示。
相关综述提出了系统化的分类与挑战总结,把它当作一种独立的控制范式来讨论。1
这一回我们讲三件事:
- 它能做什么
- 它为什么危险
- 工程上怎么把它关进笼子
一、它能做什么:像给模型装“细粒度旋钮”
与传统对齐手段相比:
- 提示词:像说服,受上下文影响大
- 微调:像再教育,成本高且可能过拟合
- 表征工程:像直接拧旋钮,快速、细粒度、可组合
因此它在安全与可靠性里很诱人:
- 缓解偏见
- 强化引用习惯
- 降低敏感内容生成倾向
导读里提到的“特征转向”实验,就是这种愿景的一个缩影。2
二、它为什么危险:因为“旋钮”会牵连别的电路
表征空间里,很多行为不是独立的。
你以为你在抑制一种倾向,可能顺手削掉了另一种能力;
你以为你在增强引用,可能也增强了“引用幻觉”(引用格式像,但内容不实)。
更要命的是安全机制本身也在表征里:
如果你随意操控激活,可能绕开或削弱拒答机制。
近年的工作开始从“评测与对比”角度给这类方法泼冷水:
例如 AxBench 提出系统化评测,指出在某些设置下,简单基线就能超过 SAE 等更复杂方法,提醒大家别把新工具当万能钥匙。3
另一些安全评测工作也在强调:
需要系统化框架去衡量不同 steering 方法的安全折衷与“行为纠缠”问题。4
甚至已有研究专门讨论:激活操控可能带来新的安全破口,影响模型拒答与对齐表现。5
一句话总结:
表征工程不是只改变“你想改的那一点”,它可能改变整张网的平衡。
三、工程止血法:三道护法把旋钮关进笼子
如果你非要在产品里用 steering,至少要有三道护法:
1)范围护法:只在“低风险、可验证”的子任务里用
例如:
- 格式化输出
- 引用格式校验
- 将已验证的证据改写成更清晰的表达
而不要一上来就用它去改:
- 法律/医疗等高风险建议
- 可能触发安全拒答边界的内容
2)审计护法:每次操控都要可追溯
把它当成“生产变更”:
- 哪个旋钮被动了
- 动了多少
- 作用在哪些请求上
- 结果是否通过验证
这与第38回“可验证执行”的精神一致:
能回放、能定位、能回滚,才敢上线。
3)回滚护法:失败要能一键退回“原模型行为”
一旦发现:
- 拒答率异常下降
- 幻觉率上升
- 某类用户被系统性误伤
必须能立刻停用操控路径,回到基线行为。
这与第39–40回多智能体的“止血三件套”一样:
系统要有刹车。
四、小结:能拧旋钮是能力,懂得不拧是安全
第五篇走到这里,算把一条时代主线讲圆了:
- 第41回:效率与长上下文,决定系统能走多远
- 第42回:统一多模态,把世界信号变成 token
- 第43回:推理边界,强调外部约束与可验证
- 第44回:SAE 拆念头,让内部分析成为可能
- 第45回:表征工程与安全,提醒操控带来的新风险
看官若问 2026 年的江湖教训是什么?
说书人只送八个字:
能力越强,护栏越贵。
欲知后事如何,且待续篇。
幻觉核查
- 表征工程的分类、机会与挑战:以综述给出的定义与分类为准。1
- AxBench 对 steering 方法与基线的对比结论:以其任务设置与评测指标为准。3
- SteeringSafety 与 Rogue Scalpel 对安全风险的结论:以其攻击/评测协议与复现实验为准。45
- 本回提出的“三道护法”是工程化建议,用于读者落地治理,不等同于学界唯一标准。
逻辑审计
- 与导读一致:导读提到“从让它别说到让它不会想”的安全想象,本回补齐“能干预也能破坏”的风险侧。
- 与第38回一致:任何强能力都要挂在可验证工作流上;steering 若无审计与回滚,就是高危改动。
- 与第44回一致:SAE/特征解释若缺少强基线与系统评测,容易把可解释性变成新的幻觉源头。
引用与溯源
Footnotes
-
Wehner, J., et al. Taxonomy, Opportunities, and Challenges of Representation Engineering for Large Language Models arXiv:2502.19649 (2025-02-27) https://arxiv.org/abs/2502.19649 ↩ ↩2
-
Anthropic. Evaluating Feature Steering: A Case Study in Mitigating Social Biases (2024-10-25) https://www.anthropic.com/research/evaluating-feature-steering ↩
-
Wu, Z., et al. AxBench: Steering LLMs? Even Simple Baselines Outperform Sparse Autoencoders arXiv:2501.17148 (v1: 2025-01-28) https://arxiv.org/abs/2501.17148 ↩ ↩2
-
SteeringSafety: A Systematic Safety Evaluation Framework of Training-free Steering Methods arXiv:2509.13450 (v2: 2025) https://arxiv.org/abs/2509.13450 ↩ ↩2
-
The Rogue Scalpel: Activation Steering Compromises LLM Safety arXiv:2509.22067 (v2: 2025) https://arxiv.org/abs/2509.22067 ↩ ↩2