第13回 马尔可夫决策过程——未来折扣与贝尔曼方程
昨日一着牵明日,眼前小利未必真。
若把前程都算尽,方知何处是归程。
上回我们在赌坊里练“探索与利用”:世界不变,只管选臂拿即时奖励。
可一出赌坊,江湖就不是这样了——你走一步,局面就变一步;你今天贪一口甜,明天可能就要吞一口苦。
因此强化学习真正的难点从这一回才正式登场:
长远账本。
本回我们要讲清三样东西:
- 什么是马尔可夫决策过程(MDP)
- 为什么要引入折扣(discount)
- 贝尔曼方程到底在说什么(以及它为什么像“递推式”)
一、MDP:把江湖写成“走一步、记一次分”的规则
一个马尔可夫决策过程,通常用五样东西描述:
- 状态集合 :你可能遇到的局面
- 动作集合 :每个局面下你能做的选择
- 转移规律 :在 做 ,下一个局面变成 的概率
- 奖励 :这一步世界给你的分数(可正可负)
- 折扣 :你对未来分数的“谨慎程度”
看官别被符号吓住,它其实就是把故事写成“规则书”:
现在在什么局面(状态),你做了什么(动作),世界会怎么变(转移),并给你多少分(奖励)。
之所以叫“马尔可夫”,关键在一句话:
只要知道当前状态,就足以决定下一步怎么走;过去的细节不必再单独记。
这不是说过去不重要,而是说——过去对未来的影响,都被“浓缩”进了当前状态里。
如果状态定义得太粗,过去影响还没被浓缩干净,那就会“记不住该记的”,学起来就难;
如果状态定义得太细,又会“信息太多”,算起来又贵。
这就是建模的艺术。
二、策略:江湖规矩写成“在每个局面怎么选”
强化学习最终要学的是策略(policy):
- 策略 :在状态 下选择动作 的概率
你可以把策略当作一本“行走手册”:
- 看到红灯就停(高概率选“停”)
- 看到奖励就靠近(高概率选“靠近”)
策略可以是确定的(看到 就选固定动作),也可以是随机的(留一点探索)。
三、价值:把“长远账”压缩成一个数字
现在来到关键:长远账怎么记?
我们用两个价值函数来记账:
- 状态价值 :从状态 出发,按策略 走下去,未来能拿到的“折扣总分”的期望
- 动作价值 :在 先做 ,再按 走下去,未来折扣总分的期望
这两者的差别很像:
- 是“站在路口问:照这本手册走,前程平均能赚多少?”
- 是“站在路口问:我先走这一步,再照手册走,前程平均能赚多少?”
因此 更适合“选动作”,很多算法都围着 转。
四、折扣 :为什么要把未来“打折”
折扣最常见的取值是 。
它常被误解成“未来不重要”,其实更像两层务实的判断:
- 未来越远越不确定:折扣让你对远处更谨慎
- 账本更好收敛:无限未来也能算成有限数字,便于分析与优化
你可以用两个极端来记它:
- :只看眼前一口分数(完全短视)
- 接近 1:非常看重长远,但也更难学(因为远处影响更大、更难估)
现实里怎么选 ?
这不是哲学题,是工程题:看任务周期、反馈稀疏程度、训练稳定性综合取舍。
五、贝尔曼方程:把“长远账”写成递推
现在到本回真正的主角:贝尔曼方程。
它的精神其实只有一句:
今天的价值 = 今天这一口 + 明天价值的折扣期望。
写成状态价值的“期望型递推”,就是:
这像不像高二学过的“递推数列”?
你知道了下一项的表达,就能一步步往前算;
你把未知量搬到一边,就能解出一个稳定的“自洽值”。
同理,动作价值也能写成递推:
到这里你应该体会到:
贝尔曼方程不是玄学,是“把长远账变成一步一步算”的技术。
六、最优性:把“照着手册走”升级为“写出最好的手册”
上面是“给定策略 ”的价值。
可我们真正想要的是“最优策略”。
于是把“按某策略选动作”的期望,换成“在动作里挑最好的”,就得到贝尔曼最优性方程(直觉版):
这句式子说明两件要命的事:
- 最优策略的影子藏在 “” 里:每一步都想选最有前途的动作
- 最优价值是自洽的:你用最优价值去估未来,估出来的还得是最优价值
所以强化学习很多算法,无非是在用不同手段逼近这份“自洽账本”。
第14回 DQN 会把这事做成可训练的神经网络版本;第16回 PPO 则走“直接改策略”的路线。
七、把 MDP 贴回大模型:语言条件的“状态”,偏好做“奖励”
你现在可以重新理解导读里那句“把推理当成搜索”:
一旦你把“思考过程”看作一条轨迹,它就天然符合 MDP 的叙事:
- 状态:当前上下文 + 当前已写出的推理步骤
- 动作:下一句要写什么、下一步要算什么
- 转移:写出下一句后,上下文自然更新
- 奖励:答案是否正确、过程是否合规、是否更偏好(人或奖励模型给分)
这就是为什么 RLHF 及其变体,常被放在“(偏好)强化学习”的框架里讨论。
2024 的 RLHF 综述就系统梳理了“人类反馈如何定义 RL 目标、算法如何利用反馈”的版图。1
你会在第17回到第20回看到:
当我们把“奖励”和“搜索”引入生成过程,模型的“慢思考”就不再只是一种写作风格,而是可训练、可优化的行为策略。
八、小结:本回学会“长远账”,后面才有真刀真枪
本回你要把三句话钉在心上:
- MDP 是规则书:状态‑动作‑转移‑奖励‑折扣
- 价值函数是账本:把未来总分压缩成一个数字
- 贝尔曼方程是递推:今天这一口 + 明天账本的折扣期望
下一回(第14回)我们要拿出第一把“深度武器”:
深度 Q 网络(DQN)与经验回放,讲它如何让神经网络去逼近 ,以及它为什么容易不稳定、又如何稳住。
欲知后事如何,且听下回分解。
幻觉核查
- RLHF 综述条目核对:arXiv:2312.14925(v2 为 2024-04-30),可核验摘要与版本时间。1
- 本回对 MDP/贝尔曼方程的陈述为通用教材级定义;涉及公式均为经典形式,不绑定某家实验室口径。
逻辑审计
- 与第12回对齐:第12回把世界简化成“即时奖励”,本回引入状态转移与长远账,形成自然升级。
- 为第14回铺路:本回把最优性写成“”的递推,下回 DQN 正是把这份递推变成可学习目标。
- 难度控制:只用“递推数列”的类比解释贝尔曼方程,不进入证明与测度论细节。
引用与溯源
Footnotes
-
Kaufmann, T., et al. A Survey of Reinforcement Learning from Human Feedback arXiv:2312.14925(v2: 2024-04-30)https://arxiv.org/abs/2312.14925 ↩ ↩2