第12回　多臂老虎机——探索与利用的平衡

一手伸向新机缘，一手捏住旧稳当。
不试怎知何者好，试多又怕亏满仓。

上回我们把强化学习的“三件套”立住：智能体、环境、奖励。
可那还是“江湖总论”，真正练功得从最小的练功场开始。

多臂老虎机（Multi‑Armed Bandit）就是这样的练功场：
世界极小，规则极清，难点却一点不含糊——探索与利用。

本回你只要学会三件事：

什么叫“老虎机问题”，它和完整强化学习差在哪
什么叫“懊悔（regret）”，为什么它是这门武功的铁算盘
三种经典出招思路：ε‑贪心、UCB、Thompson Sampling（只讲直觉，不背证明）

一、何谓“多臂老虎机”：一间赌坊，十台机器

想象你进了一家赌坊，排着 $K$ 台机器（臂）。
每拉一次某台机器，就会给你一个随机收益：

有的机器平均回报高，但也会偶尔吐零
有的机器看起来经常给小钱，但从不爆发

关键在于：你不知道哪台最好，只能靠不断去拉来学。

这就是多臂老虎机的全部：
没有状态转移、没有长远剧情，只有“选一个动作，拿一个即时奖励”。

所以它和“完整强化学习”差在哪？

老虎机：每一步的局面不变（或不显式记），你只是在选“哪个臂”
强化学习：你选的动作会改变未来局面（状态会走），今天的选择影响明天的路

你可把老虎机当作 RL 的“单步简化版”：
把最难的“长远账”先拿掉，只练“探索‑利用”这根筋。

二、懊悔（Regret）：你到底亏在了哪里

赌坊里总有一句扎心话：
“你不是没赢，你是没赢到本该赢的那么多。”

这句话在老虎机里被数学化成“懊悔（regret）”：

假如你一开始就知道哪台机器平均最赚钱，你就会一直拉它
但你不知道，所以你会试错、会走弯路

“懊悔”衡量的正是：
你因为试错与信息不足，少赚了多少。

它的意义很大：
它不只看你“最后选对没”，还看你“过程中浪费了多少次”。
这非常贴合现实：一个策略如果要试一万次才学会，那在生产里可能早就破产了。

三、探索与利用：为什么最优策略看起来像“摇摆不定”

看官多半会先想到一种朴素做法：

我先把每台都试几次，然后选平均最高的那台，一直拉下去。

这个想法不错，但问题在于：
你试的次数怎么分配？

试少了，可能被运气骗：好机器刚好出几次零，你就误判它不行
试多了，又亏：你花太多次在差机器上，错过了好机器的收益

因此最优策略往往表现得像“摇摆”：
前期试得多，后期更坚定；
遇到不确定又会回头再试几下。

这就是探索‑利用的平衡：
既要把钱押在看起来最好的地方，也要留出一部分筹码给“可能更好但还没看清”的地方。

四、三种出招思路（只讲骨法）

1）ε‑贪心：留一点“装傻名额”

它的性格最直白：

大多数时候（概率 $1-\varepsilon$ ）：选目前平均回报最高的那台（利用）
少数时候（概率 $\varepsilon$ ）：随机选一台（探索）

你可以把它当作“给自己规定的探险税”：
每赚一百次，就拿几次去试新路，防止被早期运气骗死。

它的优点是简单、好实现；缺点是粗糙：

随机探索不够聪明：明明有一台“看起来很有希望但样本少”，却可能被随机浪费在明显差的机器上

所以江湖里又发展出更精细的两路：UCB 与 Thompson。

2）UCB：既看平均，也看“底气”

UCB 的直觉是一句铁算盘口诀：

选“看起来好 + 但我还不太确定”的那台。

具体做法是给每台机器算一个“乐观上界”（Upper Confidence Bound）：

平均回报越高，上界越高
试的次数越少，不确定性越大，上界也会被抬高

于是 UCB 会主动偏爱“样本少但潜力大”的机器，直到把它试清楚；
一旦发现它不行，上界就掉下去，不再浪费太多次。

你可把它理解为：

把探索“定向”到不确定处，而不是盲目乱试。

3）Thompson Sampling：按“信念抽签”

Thompson 的直觉更像江湖里的占卜师：
每台机器你心里都有一个“它可能有多好”的信念分布；
每一轮你按这个信念抽一次签：

抽到谁最强，就去拉谁

为什么这看起来像玄学，却常常很好用？

因为它天然实现了探索‑利用的比例分配：

对“很可能很强”的机器，抽签常抽到它，于是大量利用
对“可能很强但不确定”的机器，偶尔也会抽到它，于是有探索机会
对“几乎肯定很差”的机器，抽到它的概率越来越小，于是自动冷落

一句话：
Thompson 让探索像“带权重的冒险”，冒险比例会随着经验自动收缩。

五、把老虎机和大模型对齐：偏好反馈就是“对决老虎机”的表亲

你可能会问：
“我学老虎机，和大模型有什么关系？”

关系很直接：
大模型对齐里常见的反馈不是“精确分数”，而是“偏好比较”：

这两段回答，哪段更好？
这两个候选动作，哪一个更符合人意？

这就像“对决老虎机（dueling bandits）”：
你不是给每个臂一个数值奖励，而是给一对臂一个胜负结果。

因此 2024–2026 的许多工作会把“人类偏好学习”“对齐反馈”“鲁棒性（防恶意偏好）”放进 bandit 框架里讨论。
例如：

有工作研究“在对决老虎机里用大模型做代理”，强调在偏好反馈下做 in‑context 决策的能力与框架。¹
也有工作从算法角度讨论“上下文对决老虎机的 Thompson 采样”，把偏好反馈变成可分析的学习过程。²
还有工作直接讨论“偏好反馈可能被对手翻转（adversarial flip）”的鲁棒场景，提醒我们：反馈系统一旦可被操纵，学习出来的偏好就可能被带偏。³

你把这些当作一条现实提醒就够了：
对齐与推荐系统等场景里，“收集反馈并在线改进”这件事，本质上很像 bandit；而 bandit 的核心问题永远是——如何用最少的试错，学到最可靠的偏好。

六、小结：本回练的是“铁算盘”，不是花拳绣腿

本回你若只记三句，就记这三句：

老虎机是 RL 的最小练功场：去掉长远账，只剩探索‑利用
懊悔是铁算盘：衡量你“少赚了多少”，比“最后对不对”更现实
探索要定向：从 ε‑贪心到 UCB、Thompson，都是在学“更聪明地试错”

下一回（第13回）我们要把“长远账”请回来：
马尔可夫决策过程、未来折扣与贝尔曼方程——
从“赌坊一间”走到“江湖一张地图”。

欲知后事如何，且听下回分解。

幻觉核查

“Beyond Numeric Rewards: In‑Context Dueling Bandits with LLM Agents”核对：arXiv:2407.01887 可核验提交时间与作者信息。¹
“Feel‑Good Thompson Sampling for Contextual Dueling Bandits”核对：arXiv:2404.06013 可核验提交时间与作者信息。²
“Nearly Optimal Algorithms for Contextual Dueling Bandits from Adversarial Feedback”核对：arXiv:2404.10776 可核验摘要描述与提交时间。³

逻辑审计

与第11回对齐：第11回讲探索‑利用是 RL 的根矛盾，本回用最小世界把矛盾讲透。
为第13回铺路：本回刻意不引入状态转移，保持难度与概念纯度；下回再把“未来账本”引入。
难度控制：不做证明，不引算法细节，只讲“为什么这样做合理”的直觉与对齐场景的映射。

引用与溯源

Xia, F., Liu, H., Yue, Y., Li, T. Beyond Numeric Rewards: In‑Context Dueling Bandits with LLM Agents arXiv:2407.01887（2024-07）https://arxiv.org/abs/2407.01887 ↩ ↩²
Li, X., Zhao, H., Gu, Q. Feel‑Good Thompson Sampling for Contextual Dueling Bandits arXiv:2404.06013（2024-04）https://arxiv.org/abs/2404.06013 ↩ ↩²
Di, Q., et al. Nearly Optimal Algorithms for Contextual Dueling Bandits from Adversarial Feedback arXiv:2404.10776（2024-04）https://arxiv.org/abs/2404.10776 ↩ ↩²

第12回 多臂老虎机——探索与利用的平衡