第11回　强化学习入门——智能体、环境、奖励

一念起时先问利，千回试后得真知。
不教答案教规矩，奖惩分明路自持。

上回我们算了“规模账”：扩展定律、涌现、MoE，都是在讲——怎样把算力换成能力。
可看官若读到导读里“慢剑宗师”“测试时计算”，又会发现第二篇的核心线索反复出现一个词：奖励。

本回就把强化学习（Reinforcement Learning, RL）这门老武功讲清楚，作为第二篇的地基。
我们只讲最关键的三件套：

智能体（Agent）：做选择的人
环境（Environment）：给反馈的世界
奖励（Reward）：好坏分数

你把这三样抓稳，后面第12回多臂老虎机、第13回贝尔曼方程、第16回 PPO、第19回“慢思考”的训练路线，都会自然连起来。

一、先讲一句大白话：强化学习就是“带分数的试错”

监督学习像老师批卷：
你做一道题，老师告诉你标准答案，错了就改到对。

强化学习更像闯关游戏：
你每一步都在选动作，但未必立刻知道对不对；
直到走到某个节点，环境才给你加分或扣分。

所以 RL 的灵魂是两个词：

试错：不试就不知道
延迟反馈：当下的动作，影响未来的分数

这也是为什么 RL 常被说成“更像现实”：现实生活很少给你标准答案，却处处给你后果。

二、三件套：状态、动作、奖励（把世界写成一张“记分表”）

为了让机器能学，我们把世界抽象成三个量：

状态 $s$ ：眼前局面（你“看见”的信息）
动作 $a$ ：你能做的选择（下一步怎么走）
奖励 $r$ ：环境给的分数（好就加，坏就减）

你可以把它当作“记分表上的一条记录”：

现在局面是 $s$ ，你选了 $a$ ，世界回了你一个分数 $r$ ，并把你带到新局面 $s'$ 。

这条记录反复出现，智能体就能从经验里总结“什么动作更值”。

这里有个关键提醒：
状态不一定是真实世界的全部，只是你拿得到的那部分。
拿不到的信息，就像雾里看花，会导致策略更难学。

三、回报：为什么要“看长远”，以及折扣的直觉

现实里的选择，常常不是“立刻得分”。
比如学习：当下辛苦（小负分），未来成绩更好（大正分）。

所以 RL 不只看一步奖励，还看“未来一路的总分”。这一路总分常被叫做“回报”（return）。

为啥还要引入“折扣”这个概念？直觉有两条：

未来越远越不确定（世界会变、信息会丢）
我们希望计算上更稳定（别让“无限未来”把账算炸）

所以把未来的分数“按距离打折”是一种务实的账本写法：
近处更确定，远处更谨慎。

你不必在本回背任何公式，只要记住：
强化学习的难点来自“长远账”与“延迟反馈”。

四、探索 vs 利用：为什么“聪明人也要装傻几回”

如果你已经发现某条路能拿分，你会一直走吗？
如果你一直走，你可能永远不知道还有没有更高分的路。

这就是强化学习著名的矛盾：

利用（exploitation）：走目前最靠谱的路
探索（exploration）：去试没试过的路

看官把它对照人生就明白：
一直干“最熟的活”，收入稳，但成长慢；
偶尔试新方向，风险大，但可能发现更好的路。

第12回“多臂老虎机”就是专门把这件事讲透：用最小成本把探索‑利用的逻辑练成肌肉记忆。

五、奖励设计：奖惩写错了，学出来的就不是你要的

强化学习里最容易出事的地方，不是算法，而是“奖励”。
因为模型会非常认真地完成你给它的目标——哪怕那个目标写得很蠢。

两条最常见的坑：

奖励太短视：只奖励眼前的分数，模型就学会“投机取巧”
奖励可被钻空子：模型找到你没想到的捷径，把分数刷上去，但任务实际没完成

这在大模型对齐里尤其重要：
如果奖励只鼓励“看起来像好回答”，模型就可能更会迎合、更会话术；
如果奖励鼓励“过程正确”，又需要你能评估过程——这就牵到第20回“过程奖励与搜索式解码”。

所以 RL 的一条江湖规矩是：
写奖励，比写模型更像在写法律条文。

六、RL 与大模型：为什么 2025 的“顿悟”让人震撼

你在导读里见过“aha moment（顿悟时刻）”的说法：
某些训练过程里，模型会突然开始自我检查、延长思考、回头纠错。

这类现象之所以引人注目，是因为它暗示了一个更普适的观点：
你不必把“推理步骤”当作标准答案教给模型，你也可以用激励规则，让它在试错中自己长出某些思考习惯。

例如 2025 的工作 DeepSeek-R1 就把“用强化学习激励推理能力”的路线放到了聚光灯下，并描述了 R1-Zero 训练中出现的 “aha moment” 等现象。¹

请注意：本回不讨论它的具体训练细节（那是第17–20回的主场），这里只用它做一个“时代坐标”——
RL 不再只是玩游戏、控机器人，它也成了“让语言模型更会想”的一把钥匙。

七、小结：本回立三根柱，下回开老虎机

本回你该牢牢记住三根柱：

状态‑动作‑奖励：把世界写成可学习的记分表
长远账：延迟反馈让问题变难
探索‑利用：聪明也要试错

下一回（第12回）我们用“多臂老虎机”做最小的练功场：
没有复杂世界、没有长序列，只剩探索‑利用这根筋，练到你闭眼都能说出它的逻辑。

欲知后事如何，且听下回分解。

幻觉核查

DeepSeek-R1 引用核对：arXiv:2501.12948 可核验提交时间与摘要描述。¹
本回对 RL 的定义与三件套为通用教材级表述，不依赖某家实验室口径；涉及具体“aha moment”现象仅指向可核验论文条目，避免凭空捏造实验细节。

逻辑审计

与导读对齐：导读把“慢思考”与“奖励/搜索/试错”相连，本回补齐奖励与试错的基本语法。
与第12–16回对齐：本回只立概念柱子，不抢后文戏份；探索‑利用与折扣直觉为后续公式推导做铺垫。
难度控制：只用“记分表”“闯关”“长远账”的类比，不引入超纲证明。

引用与溯源

DeepSeek-AI, et al. DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning arXiv:2501.12948（2025-01）https://arxiv.org/abs/2501.12948 ↩ ↩²

第11回 强化学习入门——智能体、环境、奖励