第11回 强化学习入门——智能体、环境、奖励

一念起时先问利,千回试后得真知。
不教答案教规矩,奖惩分明路自持。

上回我们算了“规模账”:扩展定律、涌现、MoE,都是在讲——怎样把算力换成能力。
可看官若读到导读里“慢剑宗师”“测试时计算”,又会发现第二篇的核心线索反复出现一个词:奖励

本回就把强化学习(Reinforcement Learning, RL)这门老武功讲清楚,作为第二篇的地基。
我们只讲最关键的三件套:

  • 智能体(Agent):做选择的人
  • 环境(Environment):给反馈的世界
  • 奖励(Reward):好坏分数

你把这三样抓稳,后面第12回多臂老虎机、第13回贝尔曼方程、第16回 PPO、第19回“慢思考”的训练路线,都会自然连起来。


一、先讲一句大白话:强化学习就是“带分数的试错”

监督学习像老师批卷:
你做一道题,老师告诉你标准答案,错了就改到对。

强化学习更像闯关游戏:
你每一步都在选动作,但未必立刻知道对不对;
直到走到某个节点,环境才给你加分或扣分。

所以 RL 的灵魂是两个词:

  • 试错:不试就不知道
  • 延迟反馈:当下的动作,影响未来的分数

这也是为什么 RL 常被说成“更像现实”:现实生活很少给你标准答案,却处处给你后果。


二、三件套:状态、动作、奖励(把世界写成一张“记分表”)

为了让机器能学,我们把世界抽象成三个量:

  • 状态 ss:眼前局面(你“看见”的信息)
  • 动作 aa:你能做的选择(下一步怎么走)
  • 奖励 rr:环境给的分数(好就加,坏就减)

你可以把它当作“记分表上的一条记录”:

现在局面是 ss,你选了 aa,世界回了你一个分数 rr,并把你带到新局面 ss'

这条记录反复出现,智能体就能从经验里总结“什么动作更值”。

这里有个关键提醒:
状态不一定是真实世界的全部,只是你拿得到的那部分。
拿不到的信息,就像雾里看花,会导致策略更难学。


三、回报:为什么要“看长远”,以及折扣的直觉

现实里的选择,常常不是“立刻得分”。
比如学习:当下辛苦(小负分),未来成绩更好(大正分)。

所以 RL 不只看一步奖励,还看“未来一路的总分”。这一路总分常被叫做“回报”(return)。

为啥还要引入“折扣”这个概念?直觉有两条:

  1. 未来越远越不确定(世界会变、信息会丢)
  2. 我们希望计算上更稳定(别让“无限未来”把账算炸)

所以把未来的分数“按距离打折”是一种务实的账本写法:
近处更确定,远处更谨慎。

你不必在本回背任何公式,只要记住:
强化学习的难点来自“长远账”与“延迟反馈”。


四、探索 vs 利用:为什么“聪明人也要装傻几回”

如果你已经发现某条路能拿分,你会一直走吗?
如果你一直走,你可能永远不知道还有没有更高分的路。

这就是强化学习著名的矛盾:

  • 利用(exploitation):走目前最靠谱的路
  • 探索(exploration):去试没试过的路

看官把它对照人生就明白:
一直干“最熟的活”,收入稳,但成长慢;
偶尔试新方向,风险大,但可能发现更好的路。

第12回“多臂老虎机”就是专门把这件事讲透:用最小成本把探索‑利用的逻辑练成肌肉记忆。


五、奖励设计:奖惩写错了,学出来的就不是你要的

强化学习里最容易出事的地方,不是算法,而是“奖励”。
因为模型会非常认真地完成你给它的目标——哪怕那个目标写得很蠢。

两条最常见的坑:

  1. 奖励太短视:只奖励眼前的分数,模型就学会“投机取巧”
  2. 奖励可被钻空子:模型找到你没想到的捷径,把分数刷上去,但任务实际没完成

这在大模型对齐里尤其重要:
如果奖励只鼓励“看起来像好回答”,模型就可能更会迎合、更会话术;
如果奖励鼓励“过程正确”,又需要你能评估过程——这就牵到第20回“过程奖励与搜索式解码”。

所以 RL 的一条江湖规矩是:
写奖励,比写模型更像在写法律条文。


六、RL 与大模型:为什么 2025 的“顿悟”让人震撼

你在导读里见过“aha moment(顿悟时刻)”的说法:
某些训练过程里,模型会突然开始自我检查、延长思考、回头纠错。

这类现象之所以引人注目,是因为它暗示了一个更普适的观点:
你不必把“推理步骤”当作标准答案教给模型,你也可以用激励规则,让它在试错中自己长出某些思考习惯。

例如 2025 的工作 DeepSeek-R1 就把“用强化学习激励推理能力”的路线放到了聚光灯下,并描述了 R1-Zero 训练中出现的 “aha moment” 等现象。1

请注意:本回不讨论它的具体训练细节(那是第17–20回的主场),这里只用它做一个“时代坐标”——
RL 不再只是玩游戏、控机器人,它也成了“让语言模型更会想”的一把钥匙。


七、小结:本回立三根柱,下回开老虎机

本回你该牢牢记住三根柱:

  • 状态‑动作‑奖励:把世界写成可学习的记分表
  • 长远账:延迟反馈让问题变难
  • 探索‑利用:聪明也要试错

下一回(第12回)我们用“多臂老虎机”做最小的练功场:
没有复杂世界、没有长序列,只剩探索‑利用这根筋,练到你闭眼都能说出它的逻辑。

欲知后事如何,且听下回分解。


幻觉核查

  • DeepSeek-R1 引用核对:arXiv:2501.12948 可核验提交时间与摘要描述。1
  • 本回对 RL 的定义与三件套为通用教材级表述,不依赖某家实验室口径;涉及具体“aha moment”现象仅指向可核验论文条目,避免凭空捏造实验细节。

逻辑审计

  • 与导读对齐:导读把“慢思考”与“奖励/搜索/试错”相连,本回补齐奖励与试错的基本语法。
  • 与第12–16回对齐:本回只立概念柱子,不抢后文戏份;探索‑利用与折扣直觉为后续公式推导做铺垫。
  • 难度控制:只用“记分表”“闯关”“长远账”的类比,不引入超纲证明。

引用与溯源

Footnotes

  1. DeepSeek-AI, et al. DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning arXiv:2501.12948(2025-01)https://arxiv.org/abs/2501.12948 2