2026版导读：为什么 AI 突然变聪明了

千亿词海起潮声，旧法堆砖未必成。
忽闻江湖传慢剑，一念回环万里明。

看官翻开此书，多半已听过“Transformer”“大模型”“ChatGPT”之名。可若把时钟拨到 2026 年，再回头看 2024–2025 的两年，会发现一个怪事：

同样是大模型，参数并未翻天，语料也未暴涨，可它忽然就会做题了、会写长代码了、会在错处自打脸、能把一段复杂推理走到底。

这变化，像江湖里突然出了位“慢剑宗师”——并不见得臂力更强，却能在出招前多想三息：先探路、再回头、再换势，最后一剑封喉。

本书的主线，便是追这把“慢剑”从何而来。

一、旧江湖：会说话，但不一定会想

在 2023–2024 年前后，主流大模型更像“快刀客”：

见招拆招，反应极快
擅长续写与模仿，口才一流
遇到多步推理，常在半途走岔

这不是它不聪明，而是它“出招方式”太单一：一次生成，从左到右，一路写下去。写错了，多半也不会回头。

于是你会看到一种典型幻觉：回答听起来很像那么回事，但关键事实、关键步骤却不牢靠。

二、新江湖：给它时间思考（Test-time Compute）

2024 年末起，前沿实验室开始公开一种新思路：
训练时堆算力固然重要，但推理时“给时间思考”同样能换来能力跃迁。

OpenAI 在介绍 o1 系列时把话说得很直白：这是一批“会花更多时间想一想再回答”的模型。它们更擅长复杂推理、科学与编程任务。¹

随后 OpenAI 进一步展示了“推理能力”在竞赛与基准上的提升，并把这种提升与推理过程（更长的思维链、更强的自我校验）联系起来。²

这条路，江湖里通常叫三件事：

测试时计算（Test-time compute）：同一问题，多算几步，多试几条路
慢思考（System 2）：别急着给结论，先把中间过程走稳
把推理当成搜索：不是“想到哪写到哪”，而是“在候选路径里挑最靠谱的”

你会在本书第二篇第十九、二十回看到：这些概念并非空谈，它们与强化学习、MCTS 等“老武功”暗中相通，只是换了个更适合大模型的落地方式。

三、顿悟时刻：不靠标准答案，也能练出推理

如果说“慢思考”像武功心法，那么 2025 年最震撼的一幕，是有人让模型几乎不靠人工示范也能练出推理的身法。

DeepSeek 团队在公开材料中介绍了 DeepSeek-R1 与 DeepSeek-R1-Zero：其中 R1-Zero 采用“在基座模型上直接做大规模强化学习，而不先用监督微调（SFT）打底”的路线，并在训练过程中观察到所谓 “aha moment（顿悟时刻）”——模型会突然学会回头检查自己的步骤，再继续往下推。³⁴

这件事对科普写作的意义是：
我们终于可以把“推理能力”讲得更像“练功”——不是把答案背给它，而是给它一个奖惩规则，让它在试错中自己摸出门道。

四、后 Transformer：长文时代的新身法（SSM / Mamba）

2024 年前后，Transformer 依旧是大模型的正宗门派，但它有个先天弱点：处理序列越长，代价越高。

于是另一路高手再起——状态空间模型（State Space Models, SSM）及其代表架构 Mamba。

Mamba 的论文把自己定位为“线性时间序列建模”，并用“选择性（selective）”机制让模型在长序列里学会“挑重点记”。⁵

到了 2024 年，又出现了把注意力与 SSM 关系讲得更透、并提出 Mamba-2 的工作，强调其核心层在效率上可获得显著提升。⁶

在本书里，我们不会把你拉进复杂的矩阵推导，而是用“说书”的方式讲清一件事：
Transformer 像翻卷宗：每写一页，都要回头翻前文；Mamba 像行军记：一路奔跑一路记要点。

这便是第五篇第四十一回要讲的“后 Transformer 时代”。

五、RAG 进化：从“查资料”到“能办事”（Agentic RAG）

传统 RAG 像书生：遇到问题就去书库抄几段，回来拼成一篇文章。
可现实任务往往更像办案：
先判断要不要查、该查什么、查到的证据靠不靠谱、哪里需要再核查。

因此，RAG 在 2024–2026 的一个明显趋势，是变成“带反思与纠错循环的工作流”。例如：

Corrective RAG（CRAG）专门讨论“检索错了怎么办”，强调对检索结果做动态评估、纠错与再检索。⁷
Agentic RAG 的综述把这种模式归纳为“把规划、反思、工具使用嵌进检索流程”。⁸

这会在第三篇第二十九回（超长上下文时代 RAG 还有用吗）与第四篇（工作流与智能体）里，成为贯穿的主线：
当上下文变长，RAG 不消失，而是从“扩充输入”升级为“外部记忆 + 事实校验 + 行动计划”。

六、拆黑箱：SAE 让我们第一次能“摸到念头”

大模型像一座城，城里念头万千：金门大桥、莎士比亚、偏见、代码风格……它们在网络内部以“激活方向”的方式叠在一起，常常难以拆分。

而机械可解释性在 2024 年的一条重要路线，是用稀疏自编码器（Sparse Autoencoder, SAE）做“字典学习”：把纠缠的内部表示拆成一条条更可命名、更可操控的特征。

Anthropic 在研究中谈到过“特征转向（feature steering）”实验：把某个与“金门大桥”相关的特征拨高，模型就会更倾向于谈起金门大桥；并进一步讨论了这种方法在缓解社会偏见上的效果与副作用。⁹

这不是猎奇，而是为安全与对齐打开了新门：
从“让它别说”走向“让它不会想”。

本书最后两回（第四十四、四十五回）会把这条路讲清：它能做什么，不能做什么，以及它为何可能改变对齐的范式。

七、人物入场：谁在练这些新武功

科普若不点名人物，读者常觉得江湖无主。这里先把几位“出招的关键人物”请上台（只点与本书主线相关者）：

Noam Brown（OpenAI）：长期研究“用搜索与强化学习做推理”，在推理模型路线的公开讨论中经常被引用与提及。¹
Albert Gu 与 Tri Dao：Mamba 与 Mamba-2 的主要作者，把 SSM 这条“线性长文路”推到聚光灯下。⁵⁶
DeepSeek-AI 团队：用公开技术报告与论文展示“用强化学习激励推理能力”的训练路线，并提出了“aha moment”等现象描述。³
Anthropic 研究团队：在 SAE 与特征转向的研究中展示了“可解释特征”与“可控干预”的可能性，并讨论了安全相关影响。⁹

后文每回遇到关键武功，都会尽量交代“谁提出、为何提出、解决了什么痛点”，让读者知道这是有脉络的江湖史，不是凭空编的故事。

八、代码小试：快思考 vs 慢思考（用搜索做个小演示）

本书每回都会给极简代码。本导读先用一个玩具例子，把“慢思考”说得更直观：

同样一道题，不用大模型也能看出“多算几步、试几条路”的价值。下面用一个最简单的 24 点（给四个数字，用 + - * / 拼成 24）作为演示：

from __future__ import annotations

import itertools
import math
import random
from typing import List, Tuple


OPS = [
    ("+", lambda a, b: a + b),
    ("-", lambda a, b: a - b),
    ("*", lambda a, b: a * b),
    ("/", lambda a, b: a / b if b != 0 else None),
]


def try_once(nums: List[float], target: float = 24.0, eps: float = 1e-6) -> Tuple[bool, str]:
    items = [(n, str(int(n)) if float(n).is_integer() else str(n)) for n in nums]
    random.shuffle(items)
    while len(items) > 1:
        (a, ea), (b, eb) = items.pop(), items.pop()
        op, fn = random.choice(OPS)
        out = fn(a, b)
        if out is None or math.isinf(out) or math.isnan(out):
            return False, ""
        items.append((out, f"({ea} {op} {eb})"))
    value, expr = items[0]
    return abs(value - target) < eps, expr


def solve_24(nums: List[int], tries: int) -> str | None:
    for _ in range(tries):
        ok, expr = try_once([float(n) for n in nums])
        if ok:
            return expr
    return None


if __name__ == "__main__":
    nums = [3, 3, 8, 8]
    for budget in [10, 100, 5000]:
        ans = solve_24(nums, tries=budget)
        print(f"budget={budget:>4} -> {ans}")

这段代码做的事很“笨”：随机试算。可你会发现：

预算很小（快思考），往往找不到解
预算变大（慢思考），解就更可能出现

推理模型的思想更精巧：不是纯随机，而是用奖励、反思、搜索，把试错变得“更会试”。但核心精神一致：
把算力从训练时搬一部分到回答时，让它有机会回头修正。

九、读法与承诺：这本书如何写、你如何读

本书有三条写作承诺：

难度守门：若某处公式超出高二直觉，就用图解与类比兜底
伏笔连贯：每回末尾都留下悬念，为下一回铺路
可运行代码：每回至少一段极简 Python（必要时含 PyTorch），能让你“动手摸到算法”

读者也可用三条读法：

想打基础：从第一回顺读到第十回
想追前沿：可先跳到第十九、二十回，再回补强化学习基础（第十一至十六回）
想做系统：第三、四篇连读，理解从 RAG 到 Agentic Workflow 的演进

十、收尾：从“空间”起步

导读说完，江湖已经摆在眼前：
慢思考、搜索式推理、后 Transformer、新 RAG、可解释特征……皆是 2026 年绕不开的武功。

但看官切莫急着学绝招。真要练功，仍得从最朴素的“内功”起手：
把世界化作向量，把相似度算得明明白白。

正是：万法归来皆落点，一点成线线成天。
先把向量磨锋利，后看群英竞推演。

欲知后事如何，且听第一回分解。

引用与溯源

OpenAI. Introducing OpenAI o1 (o1-preview / o1-mini)（2024-09-12，含 2024-09-17 更新）https://openai.com/index/introducing-openai-o1-preview/ ↩ ↩²
OpenAI. Learning to reason with LLMs（OpenAI Research 文章，含 AIME 2024 等评测描述）https://openai.com/index/learning-to-reason-with-llms/ ↩
DeepSeek-AI. DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning arXiv:2501.12948（v1: 2025-01-22）https://arxiv.org/abs/2501.12948 ↩ ↩²
Hugging Face 模型卡：deepseek-ai/DeepSeek-R1（包含对 R1-Zero 与训练路线的概述）https://huggingface.co/deepseek-ai/DeepSeek-R1 ↩
Gu, A., Dao, T. Mamba: Linear-Time Sequence Modeling with Selective State Spaces arXiv:2312.00752（2023-12）https://arxiv.org/abs/2312.00752 ↩ ↩²
Dao, T., Gu, A. Transformers are SSMs: Generalized Models and Efficient Algorithms Through Structured State Space Duality arXiv:2405.21060（2024-05）https://arxiv.org/abs/2405.21060 ↩ ↩²
Gu, J.-C., et al. Corrective Retrieval Augmented Generation arXiv:2401.15884（2024-01）https://arxiv.org/abs/2401.15884 ↩
Agentic Retrieval-Augmented Generation: A Survey on Agentic RAG arXiv:2501.09136（2025-01）https://arxiv.org/abs/2501.09136 ↩
Anthropic. Evaluating Feature Steering: A Case Study in Mitigating Social Biases（2024-10-25）https://www.anthropic.com/research/evaluating-feature-steering ↩ ↩²