《LLM_AI_算法》

目录与导读

《LLM_AI_算法》目录（2026版·章回体）

定位：以高二数学基础为起点，用中文叙述风格讲清大模型与相关算法的“从基座到系统”之路；重点补齐 2025–2026 的推理模型、测试时计算、后 Transformer 架构与机械可解释性。

阅读建议：按五篇顺序读可获得最顺的“认知依赖链”；若只关心前沿推理，可从第二篇第十九回起跳读，再回补强化学习基础。

2026版导读

2026版导读：为什么 AI 突然变聪明了

第一篇：基石与演进（从向量到基座）

第01回　向量与空间——从自然数到高维空间
向量、点积、余弦相似度与矩阵：一切表示学习的地基。
第02回　词的数字化——独热编码与词袋模型
One-hot、词袋与 TF-IDF：让文本第一次可计算。
第03回　词的灵魂——嵌入与 Word2vec
低维连续语义空间：CBOW、Skip-gram 与负采样。
第04回　时序记忆——RNN 与长短期记忆
递归网络的记忆与遗忘：梯度消失、LSTM/GRU 门控直觉。
第05回　情感分析实战——用深度网络理解文字
从数据到评估：把“算法”落到一个可跑通的完整任务上。
第06回　注意力机制——让模型学会聚焦
Query/Key/Value、缩放点积与多头注意力：从“看全篇”到“看重点”。
第07回　Transformer 横空出世——抛弃循环的全新架构
编码器/解码器、位置编码、残差与归一化：大模型的骨架。
第08回　预训练的两条路——掩码语言模型与自回归
BERT 与 GPT 的训练目标、掩码与因果约束、优化与训练技巧。
第09回　可视化 Transformer——探秘模型内部表示
注意力可视化、探针任务与表示分析：从“能用”到“看懂”。
第10回　LLM 的进化——扩展定律、涌现与混合专家
Scaling laws、涌现与 MoE：为什么“更大”常常更聪明。

第二篇：对齐与推理（从奖励到慢思考）

第11回　强化学习入门——智能体、环境、奖励
强化学习的三件套：状态、动作、奖励与探索-利用。
第12回　多臂老虎机——探索与利用的平衡
ε-贪心、UCB 与梯度法：最小代价理解“学会试错”。
第13回　马尔可夫决策过程——未来折扣与贝尔曼方程
MDP、价值函数与最优性：把长期收益写成方程。
第14回　深度 Q 网络——DQN 与经验回放
用神经网络近似 Q：目标网络与回放缓冲区的稳定之道。
第15回　策略梯度——REINFORCE 与基线
直接优化策略：策略梯度定理与方差控制的直觉。
第16回　PPO——稳定高效的策略优化
Clip 目标与 Actor-Critic：工业界最常用的稳健更新法。
第17回　LLM 的调教——SFT、RLHF 与奖励建模
对齐三步走：监督微调、奖励模型与偏好优化的训练流水线。
第18回　不靠 PPO 的对齐——DPO/IPO/KTO 与偏好学习
直接偏好优化及其变体：更简单的实现、更可控的训练代价。
第19回　慢思考的黎明——推理缩放定律与测试时计算
从“堆训练算力”到“给推理时间”：Test-time compute 如何换来逻辑跃迁。
第20回　搜索式解码——MCTS、过程奖励与顿悟时刻
结果监督与过程监督的分野；搜索与自我纠错如何催生长思维链。

第三篇：记忆增强（从检索到可核查）

第21回　智能体初探——LLM 作为大脑的架构
感知、记忆、规划、行动：把“会说话”变成“能做事”。
第22回　工具调用——从 Prompt JSON 到 Function Calling
工具为何能用、怎样才稳：约束、参数、错误回传与可验证执行。
第23回　检索增强生成（RAG）基础——分块、嵌入与检索
索引、召回、上下文拼接：朴素 RAG 的全流程与关键选择。
第24回　RAG 评估指标——如何衡量检索与生成质量
检索与生成各自的“对与错”：召回、相关性、忠实度与可引用回答。
第25回　高级 RAG（上）——查询变换与 HyDE
重写、分解、Step-back：让“问得更像文档”的检索术。
第26回　高级 RAG（中）——混合搜索与重排序
BM25+向量的互补；交叉编码器重排与上下文压缩。
第27回　高级 RAG（下）——模块化架构与训练方法
路由、记忆、验证与合成：把 RAG 变成可控系统。
第28回　RAG 生产扩展——并行、缓存与隐私保护
规模化落地的现实账：延迟、成本、缓存与数据安全。
第29回　超长上下文时代——RAG 还有用吗？
当上下文变“很长”：RAG 何时该退场、何时该升级为 Agentic RAG。
第30回　知识图谱基础——图、三元组与图算法
图的语言：实体-关系-实体与最短路、子图、路径的推理直觉。

第四篇：行动与协作（从图到工作流）

第31回　构建知识图谱——NER、关系抽取与 LLM 辅助
从文本到三元组：抽取、消歧与用大模型做弱监督。
第32回　GraphRAG——图上的检索增强流程
以实体与路径引导检索：把“相关段落”升级为“相关子图”。
第33回　图上的推理——知识图谱嵌入
TransE、RotatE、ComplEx：把图的几何结构压进向量空间。
第34回　图上的推理——图神经网络基础
消息传递与聚合：GCN、GAT、GraphSAGE 的共同骨法。
第35回　LLM 与图的协同——图提示与联合模型
线性化图、图作为外部记忆：LLM+GNN 的组合拳。
第36回　规划与自省——从分解任务到反思循环
Planner/Reflector 的来由：Reflexion、纠错与迭代改写。
第37回　长期记忆——让智能体记住你
持久化记忆与个性化：跨会话存取、遗忘策略与安全边界。
第38回　单智能体现代实例——状态机工作流与可验证执行
用状态机把复杂任务变成可控流程：分支、回滚与审计。
第39回　多智能体协作——分工、辩论与协调算法
主从、平等、辩论：通信协议、任务分配与共识机制。
第40回　多智能体失败分析——常见失败模式与原因
冲突、幻觉、奖励黑客与验证缺失：系统性失败的根因图谱。

第五篇：反思与未来（从架构到可解释）

第41回　后 Transformer 时代——SSM、Mamba 与线性注意力
把 O(N²) 变 O(N)：状态空间与选择性扫描如何应对百万 Token。
第42回　原生多模态——从拼接到同一套 Token 空间
Early fusion 的直觉：文本、图像、音频如何共享表示与对齐信号。
第43回　推理的边界——模式匹配还是真正推理？
让质疑落到实验：何时像直觉、何时像证明，慢思考给出何种答案。
第44回　创造力与可解释性——稀疏自编码器与字典学习
拆解“念头”：特征发现、概念神经元与可控的理解路径。
第45回　模型操控与安全——特征转向、消融与对齐的未来
Steering 与 A/Blation：从“教它别说”到“让它不会想”的安全想象。

附录