第13回 马尔可夫决策过程——未来折扣与贝尔曼方程

昨日一着牵明日,眼前小利未必真。
若把前程都算尽,方知何处是归程。

上回我们在赌坊里练“探索与利用”:世界不变,只管选臂拿即时奖励。
可一出赌坊,江湖就不是这样了——你走一步,局面就变一步;你今天贪一口甜,明天可能就要吞一口苦。

因此强化学习真正的难点从这一回才正式登场:
长远账本

本回我们要讲清三样东西:

  • 什么是马尔可夫决策过程(MDP)
  • 为什么要引入折扣(discount)
  • 贝尔曼方程到底在说什么(以及它为什么像“递推式”)

一、MDP:把江湖写成“走一步、记一次分”的规则

一个马尔可夫决策过程,通常用五样东西描述:

  • 状态集合 SS:你可能遇到的局面
  • 动作集合 AA:每个局面下你能做的选择
  • 转移规律 P(ss,a)P(s' \mid s, a):在 ssaa,下一个局面变成 ss' 的概率
  • 奖励 R(s,a,s)R(s, a, s'):这一步世界给你的分数(可正可负)
  • 折扣 γ\gamma:你对未来分数的“谨慎程度”

看官别被符号吓住,它其实就是把故事写成“规则书”:

现在在什么局面(状态),你做了什么(动作),世界会怎么变(转移),并给你多少分(奖励)。

之所以叫“马尔可夫”,关键在一句话:
只要知道当前状态,就足以决定下一步怎么走;过去的细节不必再单独记。

这不是说过去不重要,而是说——过去对未来的影响,都被“浓缩”进了当前状态里。

如果状态定义得太粗,过去影响还没被浓缩干净,那就会“记不住该记的”,学起来就难;
如果状态定义得太细,又会“信息太多”,算起来又贵。
这就是建模的艺术。


二、策略:江湖规矩写成“在每个局面怎么选”

强化学习最终要学的是策略(policy):

  • 策略 π(as)\pi(a \mid s):在状态 ss 下选择动作 aa 的概率

你可以把策略当作一本“行走手册”:

  • 看到红灯就停(高概率选“停”)
  • 看到奖励就靠近(高概率选“靠近”)

策略可以是确定的(看到 ss 就选固定动作),也可以是随机的(留一点探索)。


三、价值:把“长远账”压缩成一个数字

现在来到关键:长远账怎么记?

我们用两个价值函数来记账:

  • 状态价值 Vπ(s)V^\pi(s):从状态 ss 出发,按策略 π\pi 走下去,未来能拿到的“折扣总分”的期望
  • 动作价值 Qπ(s,a)Q^\pi(s,a):在 ss 先做 aa,再按 π\pi 走下去,未来折扣总分的期望

这两者的差别很像:

  • VV 是“站在路口问:照这本手册走,前程平均能赚多少?”
  • QQ 是“站在路口问:我先走这一步,再照手册走,前程平均能赚多少?”

因此 QQ 更适合“选动作”,很多算法都围着 QQ 转。


四、折扣 γ\gamma:为什么要把未来“打折”

折扣最常见的取值是 0γ<10 \le \gamma < 1
它常被误解成“未来不重要”,其实更像两层务实的判断:

  1. 未来越远越不确定:折扣让你对远处更谨慎
  2. 账本更好收敛:无限未来也能算成有限数字,便于分析与优化

你可以用两个极端来记它:

  • γ=0\gamma = 0:只看眼前一口分数(完全短视)
  • γ\gamma 接近 1:非常看重长远,但也更难学(因为远处影响更大、更难估)

现实里怎么选 γ\gamma
这不是哲学题,是工程题:看任务周期、反馈稀疏程度、训练稳定性综合取舍。


五、贝尔曼方程:把“长远账”写成递推

现在到本回真正的主角:贝尔曼方程。
它的精神其实只有一句:

今天的价值 = 今天这一口 + 明天价值的折扣期望。

写成状态价值的“期望型递推”,就是:

Vπ(s)=E_aπ(s),sP(s,a)[R(s,a,s)+γVπ(s)].V^\pi(s) = \mathbb{E}\_{a \sim \pi(\cdot \mid s),\, s' \sim P(\cdot \mid s,a)} \left[ R(s,a,s') + \gamma V^\pi(s') \right].

这像不像高二学过的“递推数列”?
你知道了下一项的表达,就能一步步往前算;
你把未知量搬到一边,就能解出一个稳定的“自洽值”。

同理,动作价值也能写成递推:

Qπ(s,a)=E_sP(s,a)[R(s,a,s)+γE_aπ(s)Qπ(s,a)].Q^\pi(s,a) = \mathbb{E}\_{s' \sim P(\cdot \mid s,a)} \left[ R(s,a,s') + \gamma \mathbb{E}\_{a' \sim \pi(\cdot \mid s')} Q^\pi(s',a') \right].

到这里你应该体会到:
贝尔曼方程不是玄学,是“把长远账变成一步一步算”的技术。


六、最优性:把“照着手册走”升级为“写出最好的手册”

上面是“给定策略 π\pi”的价值。
可我们真正想要的是“最优策略”。

于是把“按某策略选动作”的期望,换成“在动作里挑最好的”,就得到贝尔曼最优性方程(直觉版):

V\*(s)=max_aE_s[R(s,a,s)+γV\*(s)].V^\*(s) = \max\_a \mathbb{E}\_{s'}\left[ R(s,a,s') + \gamma V^\*(s') \right].

这句式子说明两件要命的事:

  1. 最优策略的影子藏在 “max\max” 里:每一步都想选最有前途的动作
  2. 最优价值是自洽的:你用最优价值去估未来,估出来的还得是最优价值

所以强化学习很多算法,无非是在用不同手段逼近这份“自洽账本”。

第14回 DQN 会把这事做成可训练的神经网络版本;第16回 PPO 则走“直接改策略”的路线。


七、把 MDP 贴回大模型:语言条件的“状态”,偏好做“奖励”

你现在可以重新理解导读里那句“把推理当成搜索”:
一旦你把“思考过程”看作一条轨迹,它就天然符合 MDP 的叙事:

  • 状态:当前上下文 + 当前已写出的推理步骤
  • 动作:下一句要写什么、下一步要算什么
  • 转移:写出下一句后,上下文自然更新
  • 奖励:答案是否正确、过程是否合规、是否更偏好(人或奖励模型给分)

这就是为什么 RLHF 及其变体,常被放在“(偏好)强化学习”的框架里讨论。
2024 的 RLHF 综述就系统梳理了“人类反馈如何定义 RL 目标、算法如何利用反馈”的版图。1

你会在第17回到第20回看到:
当我们把“奖励”和“搜索”引入生成过程,模型的“慢思考”就不再只是一种写作风格,而是可训练、可优化的行为策略。


八、小结:本回学会“长远账”,后面才有真刀真枪

本回你要把三句话钉在心上:

  1. MDP 是规则书:状态‑动作‑转移‑奖励‑折扣
  2. 价值函数是账本:把未来总分压缩成一个数字
  3. 贝尔曼方程是递推:今天这一口 + 明天账本的折扣期望

下一回(第14回)我们要拿出第一把“深度武器”:
深度 Q 网络(DQN)与经验回放,讲它如何让神经网络去逼近 Q\*Q^\*,以及它为什么容易不稳定、又如何稳住。

欲知后事如何,且听下回分解。


幻觉核查

  • RLHF 综述条目核对:arXiv:2312.14925(v2 为 2024-04-30),可核验摘要与版本时间。1
  • 本回对 MDP/贝尔曼方程的陈述为通用教材级定义;涉及公式均为经典形式,不绑定某家实验室口径。

逻辑审计

  • 与第12回对齐:第12回把世界简化成“即时奖励”,本回引入状态转移与长远账,形成自然升级。
  • 为第14回铺路:本回把最优性写成“max\max”的递推,下回 DQN 正是把这份递推变成可学习目标。
  • 难度控制:只用“递推数列”的类比解释贝尔曼方程,不进入证明与测度论细节。

引用与溯源

Footnotes

  1. Kaufmann, T., et al. A Survey of Reinforcement Learning from Human Feedback arXiv:2312.14925(v2: 2024-04-30)https://arxiv.org/abs/2312.14925 2