第43回 推理的边界——模式匹配还是真正推理?
纸上推演千般巧,落到细处怕不真。
若问心法何处验,只看能否过三门。
到 2026 年,江湖里“会推理”的模型多了。
它们爱写长长的思路,像高手在台上慢慢演招:
- 先分解
- 再尝试
- 再自检
可看官若只看“演招”,容易被迷了眼:
写得像不等于做得对;
更不等于“真的理解”。
这一回不讲模型怎么训练,专讲一句狠话:
推理能力必须在“可验证约束”下谈,否则容易把作文当证明。
一、为什么会出现“推理的幻觉”
大模型天生擅长“写得通顺”。
当你要求它给出思路,它往往能给出“看起来合理的过程”。
但过程看起来合理,有三种可能:
- 真推理:过程能导出正确答案,并且可复现
- 后验解释:先碰巧猜对了,再补一段看似合理的理由
- 自信胡写:过程内部自相矛盾,但读者不易察觉
你若只评“答案像不像”和“过程像不像”,
2 和 3 都会混进来。
二、复杂度这把尺:越难的问题越能照出真本事
2025 年有一篇工作把“推理模型”的强弱放到“问题复杂度”的镜子前:
在一些规划/谜题类任务上,随着复杂度上升,模型表现会出现明显变化,并且他们对推理轨迹做了更细观察与分析。1
这类研究的意义在于:
它逼你回答一个问题——
你的“慢思考”到底是在做搜索,还是在写故事?
但看官也要警惕:
评测本身也可能出错。
同样在 2025 年,有评论工作指出:
如果评测里混入了“不可解实例”、或忽略了输出 token 限制等现实约束,就可能把“工程限制”误判成“推理失败”。2
这提醒我们:
推理的边界不只在模型,也在评测与任务定义。
三、三道“验门”:把推理从作文拽回工程
在本书的体系里,我们用三道门来验推理:
1)可执行门:过程是否能落到明确动作?
过程里如果全是形容词与态度词(“应该”“大概”“可能”),
那它更像作文。
能落到动作(检索、计算、调用工具、验证)才像推理。
这与第38回的状态机一致:
把自然语言计划变成可执行节点,才能谈可靠。
2)可验证门:关键步骤是否有可检验的约束?
数学题的检验是代回去;
工程任务的检验是单元测试、格式校验、权限校验。
没有验证,推理只剩“自我感觉良好”。
这与第24回的幻觉评估、第38回的选择性验证是同一条主线。
3)可复现门:换一种表述还能得到同一结论吗?
如果你稍微改写问题,模型就改口,
那它多半不是在“理解”,而是在“贴模式”。
这道门逼迫系统做“等价变换下的稳定性”——
这也是为什么第25回讲查询变换,第29回讲长上下文下的 RAG 升级:
你得在不同表述下仍能把证据找回来、把结论钉住。
四、小结:推理不是写长链条,是能被外界约束
看官如果只记一句话,就记这一句:
- 推理 = 过程 + 约束 + 可验证结果
没有约束的过程,再长也可能是戏法;
能被外界约束的过程,哪怕很短,也可能是真功夫。
下一回(第44回)我们从“能不能推理”转到“能不能看懂它在想什么”:
稀疏自编码器与字典学习——拆解“念头”的新工具。
欲知后事如何,且听下回分解。
幻觉核查
- 关于“复杂度视角下推理模型的优势与限制”的结论与实验范围:需以原论文的任务集合、评测方法为准。1
- 关于评论指出的评测问题(不可解实例、token 限制等):需以评论文章的具体论证为准。2
- 本回提出的“三道验门”是本书的工程化归纳,用于读者落地排障,不等同于学术界唯一标准。
逻辑审计
- 与导读一致:导读强调“慢思考=多走几步+自校验”,本回把自校验制度化为三道验门。
- 与第38回一致:状态机把动作写死;本回强调“可执行门”与“可验证门”是推理落地的底线。
- 为第44回铺路:既然推理要受约束,那我们就想更进一步:能否在内部表示层面找到“念头”,并进行更可控的分析与干预。
引用与溯源
Footnotes
-
Shojaee, P., et al. The Illusion of Thinking: Understanding the Strengths and Limitations of Reasoning Models via the Lens of Problem Complexity arXiv:2506.06941 (v1: 2025-06-07) https://arxiv.org/abs/2506.06941 ↩ ↩2
-
The Illusion of the Illusion of Thinking: A Comment on Shojaee et al. arXiv:2506.09250 (v2: 2025-06) https://arxiv.org/abs/2506.09250 ↩ ↩2