2026版导读:为什么 AI 突然变聪明了

千亿词海起潮声,旧法堆砖未必成。
忽闻江湖传慢剑,一念回环万里明。

看官翻开此书,多半已听过“Transformer”“大模型”“ChatGPT”之名。可若把时钟拨到 2026 年,再回头看 2024–2025 的两年,会发现一个怪事:

同样是大模型,参数并未翻天,语料也未暴涨,可它忽然就会做题了、会写长代码了、会在错处自打脸、能把一段复杂推理走到底。

这变化,像江湖里突然出了位“慢剑宗师”——并不见得臂力更强,却能在出招前多想三息:先探路、再回头、再换势,最后一剑封喉。

本书的主线,便是追这把“慢剑”从何而来。


一、旧江湖:会说话,但不一定会想

在 2023–2024 年前后,主流大模型更像“快刀客”:

  • 见招拆招,反应极快
  • 擅长续写与模仿,口才一流
  • 遇到多步推理,常在半途走岔

这不是它不聪明,而是它“出招方式”太单一:一次生成,从左到右,一路写下去。写错了,多半也不会回头。

于是你会看到一种典型幻觉:回答听起来很像那么回事,但关键事实、关键步骤却不牢靠。


二、新江湖:给它时间思考(Test-time Compute)

2024 年末起,前沿实验室开始公开一种新思路:
训练时堆算力固然重要,但推理时“给时间思考”同样能换来能力跃迁。

OpenAI 在介绍 o1 系列时把话说得很直白:这是一批“会花更多时间想一想再回答”的模型。它们更擅长复杂推理、科学与编程任务。1

随后 OpenAI 进一步展示了“推理能力”在竞赛与基准上的提升,并把这种提升与推理过程(更长的思维链、更强的自我校验)联系起来。2

这条路,江湖里通常叫三件事:

  1. 测试时计算(Test-time compute):同一问题,多算几步,多试几条路
  2. 慢思考(System 2):别急着给结论,先把中间过程走稳
  3. 把推理当成搜索:不是“想到哪写到哪”,而是“在候选路径里挑最靠谱的”

你会在本书第二篇第十九、二十回看到:这些概念并非空谈,它们与强化学习、MCTS 等“老武功”暗中相通,只是换了个更适合大模型的落地方式。


三、顿悟时刻:不靠标准答案,也能练出推理

如果说“慢思考”像武功心法,那么 2025 年最震撼的一幕,是有人让模型几乎不靠人工示范也能练出推理的身法。

DeepSeek 团队在公开材料中介绍了 DeepSeek-R1 与 DeepSeek-R1-Zero:其中 R1-Zero 采用“在基座模型上直接做大规模强化学习,而不先用监督微调(SFT)打底”的路线,并在训练过程中观察到所谓 “aha moment(顿悟时刻)”——模型会突然学会回头检查自己的步骤,再继续往下推。34

这件事对科普写作的意义是:
我们终于可以把“推理能力”讲得更像“练功”——不是把答案背给它,而是给它一个奖惩规则,让它在试错中自己摸出门道。


四、后 Transformer:长文时代的新身法(SSM / Mamba)

2024 年前后,Transformer 依旧是大模型的正宗门派,但它有个先天弱点:处理序列越长,代价越高。

于是另一路高手再起——状态空间模型(State Space Models, SSM)及其代表架构 Mamba。

Mamba 的论文把自己定位为“线性时间序列建模”,并用“选择性(selective)”机制让模型在长序列里学会“挑重点记”。5

到了 2024 年,又出现了把注意力与 SSM 关系讲得更透、并提出 Mamba-2 的工作,强调其核心层在效率上可获得显著提升。6

在本书里,我们不会把你拉进复杂的矩阵推导,而是用“说书”的方式讲清一件事:
Transformer 像翻卷宗:每写一页,都要回头翻前文;Mamba 像行军记:一路奔跑一路记要点。

这便是第五篇第四十一回要讲的“后 Transformer 时代”。


五、RAG 进化:从“查资料”到“能办事”(Agentic RAG)

传统 RAG 像书生:遇到问题就去书库抄几段,回来拼成一篇文章。
可现实任务往往更像办案:
先判断要不要查、该查什么、查到的证据靠不靠谱、哪里需要再核查。

因此,RAG 在 2024–2026 的一个明显趋势,是变成“带反思与纠错循环的工作流”。例如:

  • Corrective RAG(CRAG)专门讨论“检索错了怎么办”,强调对检索结果做动态评估、纠错与再检索。7
  • Agentic RAG 的综述把这种模式归纳为“把规划、反思、工具使用嵌进检索流程”。8

这会在第三篇第二十九回(超长上下文时代 RAG 还有用吗)与第四篇(工作流与智能体)里,成为贯穿的主线:
当上下文变长,RAG 不消失,而是从“扩充输入”升级为“外部记忆 + 事实校验 + 行动计划”。


六、拆黑箱:SAE 让我们第一次能“摸到念头”

大模型像一座城,城里念头万千:金门大桥、莎士比亚、偏见、代码风格……它们在网络内部以“激活方向”的方式叠在一起,常常难以拆分。

而机械可解释性在 2024 年的一条重要路线,是用稀疏自编码器(Sparse Autoencoder, SAE)做“字典学习”:把纠缠的内部表示拆成一条条更可命名、更可操控的特征。

Anthropic 在研究中谈到过“特征转向(feature steering)”实验:把某个与“金门大桥”相关的特征拨高,模型就会更倾向于谈起金门大桥;并进一步讨论了这种方法在缓解社会偏见上的效果与副作用。9

这不是猎奇,而是为安全与对齐打开了新门:
从“让它别说”走向“让它不会想”。

本书最后两回(第四十四、四十五回)会把这条路讲清:它能做什么,不能做什么,以及它为何可能改变对齐的范式。


七、人物入场:谁在练这些新武功

科普若不点名人物,读者常觉得江湖无主。这里先把几位“出招的关键人物”请上台(只点与本书主线相关者):

  • Noam Brown(OpenAI):长期研究“用搜索与强化学习做推理”,在推理模型路线的公开讨论中经常被引用与提及。1
  • Albert Gu 与 Tri Dao:Mamba 与 Mamba-2 的主要作者,把 SSM 这条“线性长文路”推到聚光灯下。56
  • DeepSeek-AI 团队:用公开技术报告与论文展示“用强化学习激励推理能力”的训练路线,并提出了“aha moment”等现象描述。3
  • Anthropic 研究团队:在 SAE 与特征转向的研究中展示了“可解释特征”与“可控干预”的可能性,并讨论了安全相关影响。9

后文每回遇到关键武功,都会尽量交代“谁提出、为何提出、解决了什么痛点”,让读者知道这是有脉络的江湖史,不是凭空编的故事。


八、代码小试:快思考 vs 慢思考(用搜索做个小演示)

本书每回都会给极简代码。本导读先用一个玩具例子,把“慢思考”说得更直观:

同样一道题,不用大模型也能看出“多算几步、试几条路”的价值。下面用一个最简单的 24 点(给四个数字,用 + - * / 拼成 24)作为演示:

from __future__ import annotations

import itertools
import math
import random
from typing import List, Tuple


OPS = [
    ("+", lambda a, b: a + b),
    ("-", lambda a, b: a - b),
    ("*", lambda a, b: a * b),
    ("/", lambda a, b: a / b if b != 0 else None),
]


def try_once(nums: List[float], target: float = 24.0, eps: float = 1e-6) -> Tuple[bool, str]:
    items = [(n, str(int(n)) if float(n).is_integer() else str(n)) for n in nums]
    random.shuffle(items)
    while len(items) > 1:
        (a, ea), (b, eb) = items.pop(), items.pop()
        op, fn = random.choice(OPS)
        out = fn(a, b)
        if out is None or math.isinf(out) or math.isnan(out):
            return False, ""
        items.append((out, f"({ea} {op} {eb})"))
    value, expr = items[0]
    return abs(value - target) < eps, expr


def solve_24(nums: List[int], tries: int) -> str | None:
    for _ in range(tries):
        ok, expr = try_once([float(n) for n in nums])
        if ok:
            return expr
    return None


if __name__ == "__main__":
    nums = [3, 3, 8, 8]
    for budget in [10, 100, 5000]:
        ans = solve_24(nums, tries=budget)
        print(f"budget={budget:>4} -> {ans}")

这段代码做的事很“笨”:随机试算。可你会发现:

  • 预算很小(快思考),往往找不到解
  • 预算变大(慢思考),解就更可能出现

推理模型的思想更精巧:不是纯随机,而是用奖励、反思、搜索,把试错变得“更会试”。但核心精神一致:
把算力从训练时搬一部分到回答时,让它有机会回头修正。


九、读法与承诺:这本书如何写、你如何读

本书有三条写作承诺:

  1. 难度守门:若某处公式超出高二直觉,就用图解与类比兜底
  2. 伏笔连贯:每回末尾都留下悬念,为下一回铺路
  3. 可运行代码:每回至少一段极简 Python(必要时含 PyTorch),能让你“动手摸到算法”

读者也可用三条读法:

  • 想打基础:从第一回顺读到第十回
  • 想追前沿:可先跳到第十九、二十回,再回补强化学习基础(第十一至十六回)
  • 想做系统:第三、四篇连读,理解从 RAG 到 Agentic Workflow 的演进

十、收尾:从“空间”起步

导读说完,江湖已经摆在眼前:
慢思考、搜索式推理、后 Transformer、新 RAG、可解释特征……皆是 2026 年绕不开的武功。

但看官切莫急着学绝招。真要练功,仍得从最朴素的“内功”起手:
把世界化作向量,把相似度算得明明白白。

正是:万法归来皆落点,一点成线线成天。
先把向量磨锋利,后看群英竞推演。

欲知后事如何,且听第一回分解。


引用与溯源

Footnotes

  1. OpenAI. Introducing OpenAI o1 (o1-preview / o1-mini)(2024-09-12,含 2024-09-17 更新)https://openai.com/index/introducing-openai-o1-preview/ 2

  2. OpenAI. Learning to reason with LLMs(OpenAI Research 文章,含 AIME 2024 等评测描述)https://openai.com/index/learning-to-reason-with-llms/

  3. DeepSeek-AI. DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning arXiv:2501.12948(v1: 2025-01-22)https://arxiv.org/abs/2501.12948 2

  4. Hugging Face 模型卡:deepseek-ai/DeepSeek-R1(包含对 R1-Zero 与训练路线的概述)https://huggingface.co/deepseek-ai/DeepSeek-R1

  5. Gu, A., Dao, T. Mamba: Linear-Time Sequence Modeling with Selective State Spaces arXiv:2312.00752(2023-12)https://arxiv.org/abs/2312.00752 2

  6. Dao, T., Gu, A. Transformers are SSMs: Generalized Models and Efficient Algorithms Through Structured State Space Duality arXiv:2405.21060(2024-05)https://arxiv.org/abs/2405.21060 2

  7. Gu, J.-C., et al. Corrective Retrieval Augmented Generation arXiv:2401.15884(2024-01)https://arxiv.org/abs/2401.15884

  8. Agentic Retrieval-Augmented Generation: A Survey on Agentic RAG arXiv:2501.09136(2025-01)https://arxiv.org/abs/2501.09136

  9. Anthropic. Evaluating Feature Steering: A Case Study in Mitigating Social Biases(2024-10-25)https://www.anthropic.com/research/evaluating-feature-steering 2