第13回　马尔可夫决策过程——未来折扣与贝尔曼方程

昨日一着牵明日，眼前小利未必真。
若把前程都算尽，方知何处是归程。

上回我们在赌坊里练“探索与利用”：世界不变，只管选臂拿即时奖励。
可一出赌坊，江湖就不是这样了——你走一步，局面就变一步；你今天贪一口甜，明天可能就要吞一口苦。

因此强化学习真正的难点从这一回才正式登场：
长远账本。

本回我们要讲清三样东西：

什么是马尔可夫决策过程（MDP）
为什么要引入折扣（discount）
贝尔曼方程到底在说什么（以及它为什么像“递推式”）

一、MDP：把江湖写成“走一步、记一次分”的规则

一个马尔可夫决策过程，通常用五样东西描述：

状态集合 $S$ ：你可能遇到的局面
动作集合 $A$ ：每个局面下你能做的选择
转移规律 $P(s' \mid s, a)$ ：在 $s$ 做 $a$ ，下一个局面变成 $s'$ 的概率
奖励 $R(s, a, s')$ ：这一步世界给你的分数（可正可负）
折扣 $\gamma$ ：你对未来分数的“谨慎程度”

看官别被符号吓住，它其实就是把故事写成“规则书”：

现在在什么局面（状态），你做了什么（动作），世界会怎么变（转移），并给你多少分（奖励）。

之所以叫“马尔可夫”，关键在一句话：
只要知道当前状态，就足以决定下一步怎么走；过去的细节不必再单独记。

这不是说过去不重要，而是说——过去对未来的影响，都被“浓缩”进了当前状态里。

如果状态定义得太粗，过去影响还没被浓缩干净，那就会“记不住该记的”，学起来就难；
如果状态定义得太细，又会“信息太多”，算起来又贵。
这就是建模的艺术。

二、策略：江湖规矩写成“在每个局面怎么选”

强化学习最终要学的是策略（policy）：

策略 $\pi(a \mid s)$ ：在状态 $s$ 下选择动作 $a$ 的概率

你可以把策略当作一本“行走手册”：

看到红灯就停（高概率选“停”）
看到奖励就靠近（高概率选“靠近”）

策略可以是确定的（看到 $s$ 就选固定动作），也可以是随机的（留一点探索）。

三、价值：把“长远账”压缩成一个数字

现在来到关键：长远账怎么记？

我们用两个价值函数来记账：

状态价值 $V^\pi(s)$ ：从状态 $s$ 出发，按策略 $\pi$ 走下去，未来能拿到的“折扣总分”的期望
动作价值 $Q^\pi(s,a)$ ：在 $s$ 先做 $a$ ，再按 $\pi$ 走下去，未来折扣总分的期望

这两者的差别很像：

$V$ 是“站在路口问：照这本手册走，前程平均能赚多少？”
$Q$ 是“站在路口问：我先走这一步，再照手册走，前程平均能赚多少？”

因此 $Q$ 更适合“选动作”，很多算法都围着 $Q$ 转。

四、折扣 $\gamma$ ：为什么要把未来“打折”

折扣最常见的取值是 $0 \le \gamma < 1$ 。
它常被误解成“未来不重要”，其实更像两层务实的判断：

未来越远越不确定：折扣让你对远处更谨慎
账本更好收敛：无限未来也能算成有限数字，便于分析与优化

你可以用两个极端来记它：

$\gamma = 0$ ：只看眼前一口分数（完全短视）
$\gamma$ 接近 1：非常看重长远，但也更难学（因为远处影响更大、更难估）

现实里怎么选 $\gamma$ ？
这不是哲学题，是工程题：看任务周期、反馈稀疏程度、训练稳定性综合取舍。

五、贝尔曼方程：把“长远账”写成递推

现在到本回真正的主角：贝尔曼方程。
它的精神其实只有一句：

今天的价值 = 今天这一口 + 明天价值的折扣期望。

写成状态价值的“期望型递推”，就是：

V^\pi(s) = \mathbb{E}\_{a \sim \pi(\cdot \mid s),\, s' \sim P(\cdot \mid s,a)} \left[ R(s,a,s') + \gamma V^\pi(s') \right].

这像不像高二学过的“递推数列”？
你知道了下一项的表达，就能一步步往前算；
你把未知量搬到一边，就能解出一个稳定的“自洽值”。

同理，动作价值也能写成递推：

Q^\pi(s,a) = \mathbb{E}\_{s' \sim P(\cdot \mid s,a)} \left[ R(s,a,s') + \gamma \mathbb{E}\_{a' \sim \pi(\cdot \mid s')} Q^\pi(s',a') \right].

到这里你应该体会到：
贝尔曼方程不是玄学，是“把长远账变成一步一步算”的技术。

六、最优性：把“照着手册走”升级为“写出最好的手册”

上面是“给定策略 $\pi$ ”的价值。
可我们真正想要的是“最优策略”。

于是把“按某策略选动作”的期望，换成“在动作里挑最好的”，就得到贝尔曼最优性方程（直觉版）：

V^\*(s) = \max\_a \mathbb{E}\_{s'}\left[ R(s,a,s') + \gamma V^\*(s') \right].

这句式子说明两件要命的事：

最优策略的影子藏在 “ $\max$ ” 里：每一步都想选最有前途的动作
最优价值是自洽的：你用最优价值去估未来，估出来的还得是最优价值

所以强化学习很多算法，无非是在用不同手段逼近这份“自洽账本”。

第14回 DQN 会把这事做成可训练的神经网络版本；第16回 PPO 则走“直接改策略”的路线。

七、把 MDP 贴回大模型：语言条件的“状态”，偏好做“奖励”

你现在可以重新理解导读里那句“把推理当成搜索”：
一旦你把“思考过程”看作一条轨迹，它就天然符合 MDP 的叙事：

状态：当前上下文 + 当前已写出的推理步骤
动作：下一句要写什么、下一步要算什么
转移：写出下一句后，上下文自然更新
奖励：答案是否正确、过程是否合规、是否更偏好（人或奖励模型给分）

这就是为什么 RLHF 及其变体，常被放在“（偏好）强化学习”的框架里讨论。
2024 的 RLHF 综述就系统梳理了“人类反馈如何定义 RL 目标、算法如何利用反馈”的版图。¹

你会在第17回到第20回看到：
当我们把“奖励”和“搜索”引入生成过程，模型的“慢思考”就不再只是一种写作风格，而是可训练、可优化的行为策略。

八、小结：本回学会“长远账”，后面才有真刀真枪

本回你要把三句话钉在心上：

MDP 是规则书：状态‑动作‑转移‑奖励‑折扣
价值函数是账本：把未来总分压缩成一个数字
贝尔曼方程是递推：今天这一口 + 明天账本的折扣期望

下一回（第14回）我们要拿出第一把“深度武器”：
深度 Q 网络（DQN）与经验回放，讲它如何让神经网络去逼近 $Q^\*$ ，以及它为什么容易不稳定、又如何稳住。

欲知后事如何，且听下回分解。

幻觉核查

RLHF 综述条目核对：arXiv:2312.14925（v2 为 2024-04-30），可核验摘要与版本时间。¹
本回对 MDP/贝尔曼方程的陈述为通用教材级定义；涉及公式均为经典形式，不绑定某家实验室口径。

逻辑审计

与第12回对齐：第12回把世界简化成“即时奖励”，本回引入状态转移与长远账，形成自然升级。
为第14回铺路：本回把最优性写成“ $\max$ ”的递推，下回 DQN 正是把这份递推变成可学习目标。
难度控制：只用“递推数列”的类比解释贝尔曼方程，不进入证明与测度论细节。

引用与溯源

Kaufmann, T., et al. A Survey of Reinforcement Learning from Human Feedback arXiv:2312.14925（v2: 2024-04-30）https://arxiv.org/abs/2312.14925 ↩ ↩²

第13回 马尔可夫决策过程——未来折扣与贝尔曼方程