第12回 多臂老虎机——探索与利用的平衡

一手伸向新机缘,一手捏住旧稳当。
不试怎知何者好,试多又怕亏满仓。

上回我们把强化学习的“三件套”立住:智能体、环境、奖励。
可那还是“江湖总论”,真正练功得从最小的练功场开始。

多臂老虎机(Multi‑Armed Bandit)就是这样的练功场:
世界极小,规则极清,难点却一点不含糊——探索与利用

本回你只要学会三件事:

  • 什么叫“老虎机问题”,它和完整强化学习差在哪
  • 什么叫“懊悔(regret)”,为什么它是这门武功的铁算盘
  • 三种经典出招思路:ε‑贪心、UCB、Thompson Sampling(只讲直觉,不背证明)

一、何谓“多臂老虎机”:一间赌坊,十台机器

想象你进了一家赌坊,排着 KK 台机器(臂)。
每拉一次某台机器,就会给你一个随机收益:

  • 有的机器平均回报高,但也会偶尔吐零
  • 有的机器看起来经常给小钱,但从不爆发

关键在于:你不知道哪台最好,只能靠不断去拉来学。

这就是多臂老虎机的全部:
没有状态转移、没有长远剧情,只有“选一个动作,拿一个即时奖励”。

所以它和“完整强化学习”差在哪?

  • 老虎机:每一步的局面不变(或不显式记),你只是在选“哪个臂”
  • 强化学习:你选的动作会改变未来局面(状态会走),今天的选择影响明天的路

你可把老虎机当作 RL 的“单步简化版”:
把最难的“长远账”先拿掉,只练“探索‑利用”这根筋。


二、懊悔(Regret):你到底亏在了哪里

赌坊里总有一句扎心话:
“你不是没赢,你是没赢到本该赢的那么多。”

这句话在老虎机里被数学化成“懊悔(regret)”:

  • 假如你一开始就知道哪台机器平均最赚钱,你就会一直拉它
  • 但你不知道,所以你会试错、会走弯路

“懊悔”衡量的正是:
你因为试错与信息不足,少赚了多少。

它的意义很大:
它不只看你“最后选对没”,还看你“过程中浪费了多少次”。
这非常贴合现实:一个策略如果要试一万次才学会,那在生产里可能早就破产了。


三、探索与利用:为什么最优策略看起来像“摇摆不定”

看官多半会先想到一种朴素做法:

我先把每台都试几次,然后选平均最高的那台,一直拉下去。

这个想法不错,但问题在于:
你试的次数怎么分配?

  • 试少了,可能被运气骗:好机器刚好出几次零,你就误判它不行
  • 试多了,又亏:你花太多次在差机器上,错过了好机器的收益

因此最优策略往往表现得像“摇摆”:
前期试得多,后期更坚定;
遇到不确定又会回头再试几下。

这就是探索‑利用的平衡:
既要把钱押在看起来最好的地方,也要留出一部分筹码给“可能更好但还没看清”的地方。


四、三种出招思路(只讲骨法)

1)ε‑贪心:留一点“装傻名额”

它的性格最直白:

  • 大多数时候(概率 1ε1-\varepsilon):选目前平均回报最高的那台(利用)
  • 少数时候(概率 ε\varepsilon):随机选一台(探索)

你可以把它当作“给自己规定的探险税”:
每赚一百次,就拿几次去试新路,防止被早期运气骗死。

它的优点是简单、好实现;缺点是粗糙:

  • 随机探索不够聪明:明明有一台“看起来很有希望但样本少”,却可能被随机浪费在明显差的机器上

所以江湖里又发展出更精细的两路:UCB 与 Thompson。


2)UCB:既看平均,也看“底气”

UCB 的直觉是一句铁算盘口诀:

选“看起来好 + 但我还不太确定”的那台。

具体做法是给每台机器算一个“乐观上界”(Upper Confidence Bound):

  • 平均回报越高,上界越高
  • 试的次数越少,不确定性越大,上界也会被抬高

于是 UCB 会主动偏爱“样本少但潜力大”的机器,直到把它试清楚;
一旦发现它不行,上界就掉下去,不再浪费太多次。

你可把它理解为:

把探索“定向”到不确定处,而不是盲目乱试。


3)Thompson Sampling:按“信念抽签”

Thompson 的直觉更像江湖里的占卜师:
每台机器你心里都有一个“它可能有多好”的信念分布;
每一轮你按这个信念抽一次签:

  • 抽到谁最强,就去拉谁

为什么这看起来像玄学,却常常很好用?

因为它天然实现了探索‑利用的比例分配:

  • 对“很可能很强”的机器,抽签常抽到它,于是大量利用
  • 对“可能很强但不确定”的机器,偶尔也会抽到它,于是有探索机会
  • 对“几乎肯定很差”的机器,抽到它的概率越来越小,于是自动冷落

一句话:
Thompson 让探索像“带权重的冒险”,冒险比例会随着经验自动收缩。


五、把老虎机和大模型对齐:偏好反馈就是“对决老虎机”的表亲

你可能会问:
“我学老虎机,和大模型有什么关系?”

关系很直接:
大模型对齐里常见的反馈不是“精确分数”,而是“偏好比较”:

  • 这两段回答,哪段更好?
  • 这两个候选动作,哪一个更符合人意?

这就像“对决老虎机(dueling bandits)”:
你不是给每个臂一个数值奖励,而是给一对臂一个胜负结果。

因此 2024–2026 的许多工作会把“人类偏好学习”“对齐反馈”“鲁棒性(防恶意偏好)”放进 bandit 框架里讨论。
例如:

  • 有工作研究“在对决老虎机里用大模型做代理”,强调在偏好反馈下做 in‑context 决策的能力与框架。1
  • 也有工作从算法角度讨论“上下文对决老虎机的 Thompson 采样”,把偏好反馈变成可分析的学习过程。2
  • 还有工作直接讨论“偏好反馈可能被对手翻转(adversarial flip)”的鲁棒场景,提醒我们:反馈系统一旦可被操纵,学习出来的偏好就可能被带偏。3

你把这些当作一条现实提醒就够了:
对齐与推荐系统等场景里,“收集反馈并在线改进”这件事,本质上很像 bandit;而 bandit 的核心问题永远是——如何用最少的试错,学到最可靠的偏好。


六、小结:本回练的是“铁算盘”,不是花拳绣腿

本回你若只记三句,就记这三句:

  1. 老虎机是 RL 的最小练功场:去掉长远账,只剩探索‑利用
  2. 懊悔是铁算盘:衡量你“少赚了多少”,比“最后对不对”更现实
  3. 探索要定向:从 ε‑贪心到 UCB、Thompson,都是在学“更聪明地试错”

下一回(第13回)我们要把“长远账”请回来:
马尔可夫决策过程、未来折扣与贝尔曼方程——
从“赌坊一间”走到“江湖一张地图”。

欲知后事如何,且听下回分解。


幻觉核查

  • “Beyond Numeric Rewards: In‑Context Dueling Bandits with LLM Agents”核对:arXiv:2407.01887 可核验提交时间与作者信息。1
  • “Feel‑Good Thompson Sampling for Contextual Dueling Bandits”核对:arXiv:2404.06013 可核验提交时间与作者信息。2
  • “Nearly Optimal Algorithms for Contextual Dueling Bandits from Adversarial Feedback”核对:arXiv:2404.10776 可核验摘要描述与提交时间。3

逻辑审计

  • 与第11回对齐:第11回讲探索‑利用是 RL 的根矛盾,本回用最小世界把矛盾讲透。
  • 为第13回铺路:本回刻意不引入状态转移,保持难度与概念纯度;下回再把“未来账本”引入。
  • 难度控制:不做证明,不引算法细节,只讲“为什么这样做合理”的直觉与对齐场景的映射。

引用与溯源

Footnotes

  1. Xia, F., Liu, H., Yue, Y., Li, T. Beyond Numeric Rewards: In‑Context Dueling Bandits with LLM Agents arXiv:2407.01887(2024-07)https://arxiv.org/abs/2407.01887 2

  2. Li, X., Zhao, H., Gu, Q. Feel‑Good Thompson Sampling for Contextual Dueling Bandits arXiv:2404.06013(2024-04)https://arxiv.org/abs/2404.06013 2

  3. Di, Q., et al. Nearly Optimal Algorithms for Contextual Dueling Bandits from Adversarial Feedback arXiv:2404.10776(2024-04)https://arxiv.org/abs/2404.10776 2