第43回　推理的边界——模式匹配还是真正推理？

纸上推演千般巧，落到细处怕不真。
若问心法何处验，只看能否过三门。

到 2026 年，江湖里“会推理”的模型多了。
它们爱写长长的思路，像高手在台上慢慢演招：

先分解
再尝试
再自检

可看官若只看“演招”，容易被迷了眼：
写得像不等于做得对；
更不等于“真的理解”。

这一回不讲模型怎么训练，专讲一句狠话：

推理能力必须在“可验证约束”下谈，否则容易把作文当证明。

一、为什么会出现“推理的幻觉”

大模型天生擅长“写得通顺”。
当你要求它给出思路，它往往能给出“看起来合理的过程”。

但过程看起来合理，有三种可能：

真推理：过程能导出正确答案，并且可复现
后验解释：先碰巧猜对了，再补一段看似合理的理由
自信胡写：过程内部自相矛盾，但读者不易察觉

你若只评“答案像不像”和“过程像不像”，
2 和 3 都会混进来。

二、复杂度这把尺：越难的问题越能照出真本事

2025 年有一篇工作把“推理模型”的强弱放到“问题复杂度”的镜子前：
在一些规划/谜题类任务上，随着复杂度上升，模型表现会出现明显变化，并且他们对推理轨迹做了更细观察与分析。¹

这类研究的意义在于：
它逼你回答一个问题——

你的“慢思考”到底是在做搜索，还是在写故事？

但看官也要警惕：
评测本身也可能出错。

同样在 2025 年，有评论工作指出：
如果评测里混入了“不可解实例”、或忽略了输出 token 限制等现实约束，就可能把“工程限制”误判成“推理失败”。²

这提醒我们：
推理的边界不只在模型，也在评测与任务定义。

三、三道“验门”：把推理从作文拽回工程

在本书的体系里，我们用三道门来验推理：

1）可执行门：过程是否能落到明确动作？

过程里如果全是形容词与态度词（“应该”“大概”“可能”），
那它更像作文。
能落到动作（检索、计算、调用工具、验证）才像推理。

这与第38回的状态机一致：
把自然语言计划变成可执行节点，才能谈可靠。

2）可验证门：关键步骤是否有可检验的约束？

数学题的检验是代回去；
工程任务的检验是单元测试、格式校验、权限校验。

没有验证，推理只剩“自我感觉良好”。
这与第24回的幻觉评估、第38回的选择性验证是同一条主线。

3）可复现门：换一种表述还能得到同一结论吗？

如果你稍微改写问题，模型就改口，
那它多半不是在“理解”，而是在“贴模式”。

这道门逼迫系统做“等价变换下的稳定性”——
这也是为什么第25回讲查询变换，第29回讲长上下文下的 RAG 升级：
你得在不同表述下仍能把证据找回来、把结论钉住。

四、小结：推理不是写长链条，是能被外界约束

看官如果只记一句话，就记这一句：

推理 = 过程 + 约束 + 可验证结果

没有约束的过程，再长也可能是戏法；
能被外界约束的过程，哪怕很短，也可能是真功夫。

下一回（第44回）我们从“能不能推理”转到“能不能看懂它在想什么”：
稀疏自编码器与字典学习——拆解“念头”的新工具。

欲知后事如何，且听下回分解。

幻觉核查

关于“复杂度视角下推理模型的优势与限制”的结论与实验范围：需以原论文的任务集合、评测方法为准。¹
关于评论指出的评测问题（不可解实例、token 限制等）：需以评论文章的具体论证为准。²
本回提出的“三道验门”是本书的工程化归纳，用于读者落地排障，不等同于学术界唯一标准。

逻辑审计

与导读一致：导读强调“慢思考=多走几步+自校验”，本回把自校验制度化为三道验门。
与第38回一致：状态机把动作写死；本回强调“可执行门”与“可验证门”是推理落地的底线。
为第44回铺路：既然推理要受约束，那我们就想更进一步：能否在内部表示层面找到“念头”，并进行更可控的分析与干预。

引用与溯源

Shojaee, P., et al. The Illusion of Thinking: Understanding the Strengths and Limitations of Reasoning Models via the Lens of Problem Complexity arXiv:2506.06941 (v1: 2025-06-07) https://arxiv.org/abs/2506.06941 ↩ ↩²
The Illusion of the Illusion of Thinking: A Comment on Shojaee et al. arXiv:2506.09250 (v2: 2025-06) https://arxiv.org/abs/2506.09250 ↩ ↩²

第43回 推理的边界——模式匹配还是真正推理？