第45回　模型操控与安全——特征转向、表征工程与新风险

刀能削木也能伤，药能救人亦能毒。
若把心念当旋钮，须知旋错祸难赎。

第44回我们讲到：SAE 像一套“念头字典”，让我们第一次有机会拆解内部表示。
可一旦你能“看见”，你就会想“动手”：

把某类行为压下去（更安全）
把某类能力抬起来（更强）
把某种风格固定住（更一致）

这类思路在近年被统称为“表征工程/激活操控/Steering”。
它的要点是：不改输入、不改参数，而是直接在推理时改内部表示。
相关综述提出了系统化的分类与挑战总结，把它当作一种独立的控制范式来讨论。¹

这一回我们讲三件事：

它能做什么
它为什么危险
工程上怎么把它关进笼子

一、它能做什么：像给模型装“细粒度旋钮”

与传统对齐手段相比：

提示词：像说服，受上下文影响大
微调：像再教育，成本高且可能过拟合
表征工程：像直接拧旋钮，快速、细粒度、可组合

因此它在安全与可靠性里很诱人：

缓解偏见
强化引用习惯
降低敏感内容生成倾向

导读里提到的“特征转向”实验，就是这种愿景的一个缩影。²

二、它为什么危险：因为“旋钮”会牵连别的电路

表征空间里，很多行为不是独立的。
你以为你在抑制一种倾向，可能顺手削掉了另一种能力；你以为你在增强引用，可能也增强了“引用幻觉”（引用格式像，但内容不实）。

更要命的是安全机制本身也在表征里：
如果你随意操控激活，可能绕开或削弱拒答机制。

近年的工作开始从“评测与对比”角度给这类方法泼冷水：
例如 AxBench 提出系统化评测，指出在某些设置下，简单基线就能超过 SAE 等更复杂方法，提醒大家别把新工具当万能钥匙。³

另一些安全评测工作也在强调：
需要系统化框架去衡量不同 steering 方法的安全折衷与“行为纠缠”问题。⁴

甚至已有研究专门讨论：激活操控可能带来新的安全破口，影响模型拒答与对齐表现。⁵

一句话总结：

表征工程不是只改变“你想改的那一点”，它可能改变整张网的平衡。

三、工程止血法：三道护法把旋钮关进笼子

如果你非要在产品里用 steering，至少要有三道护法：

1）范围护法：只在“低风险、可验证”的子任务里用

例如：

格式化输出
引用格式校验
将已验证的证据改写成更清晰的表达

而不要一上来就用它去改：

法律/医疗等高风险建议
可能触发安全拒答边界的内容

2）审计护法：每次操控都要可追溯

把它当成“生产变更”：

哪个旋钮被动了
动了多少
作用在哪些请求上
结果是否通过验证

这与第38回“可验证执行”的精神一致：
能回放、能定位、能回滚，才敢上线。

3）回滚护法：失败要能一键退回“原模型行为”

一旦发现：

拒答率异常下降
幻觉率上升
某类用户被系统性误伤

必须能立刻停用操控路径，回到基线行为。
这与第39–40回多智能体的“止血三件套”一样：
系统要有刹车。

四、小结：能拧旋钮是能力，懂得不拧是安全

第五篇走到这里，算把一条时代主线讲圆了：

第41回：效率与长上下文，决定系统能走多远
第42回：统一多模态，把世界信号变成 token
第43回：推理边界，强调外部约束与可验证
第44回：SAE 拆念头，让内部分析成为可能
第45回：表征工程与安全，提醒操控带来的新风险

看官若问 2026 年的江湖教训是什么？
说书人只送八个字：

能力越强，护栏越贵。

欲知后事如何，且待续篇。

幻觉核查

表征工程的分类、机会与挑战：以综述给出的定义与分类为准。¹
AxBench 对 steering 方法与基线的对比结论：以其任务设置与评测指标为准。³
SteeringSafety 与 Rogue Scalpel 对安全风险的结论：以其攻击/评测协议与复现实验为准。⁴⁵
本回提出的“三道护法”是工程化建议，用于读者落地治理，不等同于学界唯一标准。

逻辑审计

与导读一致：导读提到“从让它别说到让它不会想”的安全想象，本回补齐“能干预也能破坏”的风险侧。
与第38回一致：任何强能力都要挂在可验证工作流上；steering 若无审计与回滚，就是高危改动。
与第44回一致：SAE/特征解释若缺少强基线与系统评测，容易把可解释性变成新的幻觉源头。

引用与溯源

Wehner, J., et al. Taxonomy, Opportunities, and Challenges of Representation Engineering for Large Language Models arXiv:2502.19649 (2025-02-27) https://arxiv.org/abs/2502.19649 ↩ ↩²
Anthropic. Evaluating Feature Steering: A Case Study in Mitigating Social Biases (2024-10-25) https://www.anthropic.com/research/evaluating-feature-steering ↩
Wu, Z., et al. AxBench: Steering LLMs? Even Simple Baselines Outperform Sparse Autoencoders arXiv:2501.17148 (v1: 2025-01-28) https://arxiv.org/abs/2501.17148 ↩ ↩²
SteeringSafety: A Systematic Safety Evaluation Framework of Training-free Steering Methods arXiv:2509.13450 (v2: 2025) https://arxiv.org/abs/2509.13450 ↩ ↩²
The Rogue Scalpel: Activation Steering Compromises LLM Safety arXiv:2509.22067 (v2: 2025) https://arxiv.org/abs/2509.22067 ↩ ↩²

第45回 模型操控与安全——特征转向、表征工程与新风险