第43回 推理的边界——模式匹配还是真正推理?

纸上推演千般巧,落到细处怕不真。
若问心法何处验,只看能否过三门。

到 2026 年,江湖里“会推理”的模型多了。
它们爱写长长的思路,像高手在台上慢慢演招:

  • 先分解
  • 再尝试
  • 再自检

可看官若只看“演招”,容易被迷了眼:
写得像不等于做得对;
更不等于“真的理解”。

这一回不讲模型怎么训练,专讲一句狠话:

推理能力必须在“可验证约束”下谈,否则容易把作文当证明。


一、为什么会出现“推理的幻觉”

大模型天生擅长“写得通顺”。
当你要求它给出思路,它往往能给出“看起来合理的过程”。

但过程看起来合理,有三种可能:

  1. 真推理:过程能导出正确答案,并且可复现
  2. 后验解释:先碰巧猜对了,再补一段看似合理的理由
  3. 自信胡写:过程内部自相矛盾,但读者不易察觉

你若只评“答案像不像”和“过程像不像”,
2 和 3 都会混进来。


二、复杂度这把尺:越难的问题越能照出真本事

2025 年有一篇工作把“推理模型”的强弱放到“问题复杂度”的镜子前:
在一些规划/谜题类任务上,随着复杂度上升,模型表现会出现明显变化,并且他们对推理轨迹做了更细观察与分析。1

这类研究的意义在于:
它逼你回答一个问题——

你的“慢思考”到底是在做搜索,还是在写故事?

但看官也要警惕:
评测本身也可能出错。

同样在 2025 年,有评论工作指出:
如果评测里混入了“不可解实例”、或忽略了输出 token 限制等现实约束,就可能把“工程限制”误判成“推理失败”。2

这提醒我们:
推理的边界不只在模型,也在评测与任务定义。


三、三道“验门”:把推理从作文拽回工程

在本书的体系里,我们用三道门来验推理:

1)可执行门:过程是否能落到明确动作?

过程里如果全是形容词与态度词(“应该”“大概”“可能”),
那它更像作文。
能落到动作(检索、计算、调用工具、验证)才像推理。

这与第38回的状态机一致:
把自然语言计划变成可执行节点,才能谈可靠。

2)可验证门:关键步骤是否有可检验的约束?

数学题的检验是代回去;
工程任务的检验是单元测试、格式校验、权限校验。

没有验证,推理只剩“自我感觉良好”。
这与第24回的幻觉评估、第38回的选择性验证是同一条主线。

3)可复现门:换一种表述还能得到同一结论吗?

如果你稍微改写问题,模型就改口,
那它多半不是在“理解”,而是在“贴模式”。

这道门逼迫系统做“等价变换下的稳定性”——
这也是为什么第25回讲查询变换,第29回讲长上下文下的 RAG 升级:
你得在不同表述下仍能把证据找回来、把结论钉住。


四、小结:推理不是写长链条,是能被外界约束

看官如果只记一句话,就记这一句:

  • 推理 = 过程 + 约束 + 可验证结果

没有约束的过程,再长也可能是戏法;
能被外界约束的过程,哪怕很短,也可能是真功夫。

下一回(第44回)我们从“能不能推理”转到“能不能看懂它在想什么”:
稀疏自编码器与字典学习——拆解“念头”的新工具。

欲知后事如何,且听下回分解。


幻觉核查

  • 关于“复杂度视角下推理模型的优势与限制”的结论与实验范围:需以原论文的任务集合、评测方法为准。1
  • 关于评论指出的评测问题(不可解实例、token 限制等):需以评论文章的具体论证为准。2
  • 本回提出的“三道验门”是本书的工程化归纳,用于读者落地排障,不等同于学术界唯一标准。

逻辑审计

  • 与导读一致:导读强调“慢思考=多走几步+自校验”,本回把自校验制度化为三道验门。
  • 与第38回一致:状态机把动作写死;本回强调“可执行门”与“可验证门”是推理落地的底线。
  • 为第44回铺路:既然推理要受约束,那我们就想更进一步:能否在内部表示层面找到“念头”,并进行更可控的分析与干预。

引用与溯源

Footnotes

  1. Shojaee, P., et al. The Illusion of Thinking: Understanding the Strengths and Limitations of Reasoning Models via the Lens of Problem Complexity arXiv:2506.06941 (v1: 2025-06-07) https://arxiv.org/abs/2506.06941 2

  2. The Illusion of the Illusion of Thinking: A Comment on Shojaee et al. arXiv:2506.09250 (v2: 2025-06) https://arxiv.org/abs/2506.09250 2