《LLM_AI_算法》目录(2026版·章回体)
定位:以高二数学基础为起点,用中文叙述风格讲清大模型与相关算法的“从基座到系统”之路;重点补齐 2025–2026 的推理模型、测试时计算、后 Transformer 架构与机械可解释性。
阅读建议:按五篇顺序读可获得最顺的“认知依赖链”;若只关心前沿推理,可从第二篇第十九回起跳读,再回补强化学习基础。
2026版导读
第一篇:基石与演进(从向量到基座)
- 第01回 向量与空间——从自然数到高维空间
向量、点积、余弦相似度与矩阵:一切表示学习的地基。 - 第02回 词的数字化——独热编码与词袋模型
One-hot、词袋与 TF-IDF:让文本第一次可计算。 - 第03回 词的灵魂——嵌入与 Word2vec
低维连续语义空间:CBOW、Skip-gram 与负采样。 - 第04回 时序记忆——RNN 与长短期记忆
递归网络的记忆与遗忘:梯度消失、LSTM/GRU 门控直觉。 - 第05回 情感分析实战——用深度网络理解文字
从数据到评估:把“算法”落到一个可跑通的完整任务上。 - 第06回 注意力机制——让模型学会聚焦
Query/Key/Value、缩放点积与多头注意力:从“看全篇”到“看重点”。 - 第07回 Transformer 横空出世——抛弃循环的全新架构
编码器/解码器、位置编码、残差与归一化:大模型的骨架。 - 第08回 预训练的两条路——掩码语言模型与自回归
BERT 与 GPT 的训练目标、掩码与因果约束、优化与训练技巧。 - 第09回 可视化 Transformer——探秘模型内部表示
注意力可视化、探针任务与表示分析:从“能用”到“看懂”。 - 第10回 LLM 的进化——扩展定律、涌现与混合专家
Scaling laws、涌现与 MoE:为什么“更大”常常更聪明。
第二篇:对齐与推理(从奖励到慢思考)
- 第11回 强化学习入门——智能体、环境、奖励
强化学习的三件套:状态、动作、奖励与探索-利用。 - 第12回 多臂老虎机——探索与利用的平衡
ε-贪心、UCB 与梯度法:最小代价理解“学会试错”。 - 第13回 马尔可夫决策过程——未来折扣与贝尔曼方程
MDP、价值函数与最优性:把长期收益写成方程。 - 第14回 深度 Q 网络——DQN 与经验回放
用神经网络近似 Q:目标网络与回放缓冲区的稳定之道。 - 第15回 策略梯度——REINFORCE 与基线
直接优化策略:策略梯度定理与方差控制的直觉。 - 第16回 PPO——稳定高效的策略优化
Clip 目标与 Actor-Critic:工业界最常用的稳健更新法。 - 第17回 LLM 的调教——SFT、RLHF 与奖励建模
对齐三步走:监督微调、奖励模型与偏好优化的训练流水线。 - 第18回 不靠 PPO 的对齐——DPO/IPO/KTO 与偏好学习
直接偏好优化及其变体:更简单的实现、更可控的训练代价。 - 第19回 慢思考的黎明——推理缩放定律与测试时计算
从“堆训练算力”到“给推理时间”:Test-time compute 如何换来逻辑跃迁。 - 第20回 搜索式解码——MCTS、过程奖励与顿悟时刻
结果监督与过程监督的分野;搜索与自我纠错如何催生长思维链。
第三篇:记忆增强(从检索到可核查)
- 第21回 智能体初探——LLM 作为大脑的架构
感知、记忆、规划、行动:把“会说话”变成“能做事”。 - 第22回 工具调用——从 Prompt JSON 到 Function Calling
工具为何能用、怎样才稳:约束、参数、错误回传与可验证执行。 - 第23回 检索增强生成(RAG)基础——分块、嵌入与检索
索引、召回、上下文拼接:朴素 RAG 的全流程与关键选择。 - 第24回 RAG 评估指标——如何衡量检索与生成质量
检索与生成各自的“对与错”:召回、相关性、忠实度与可引用回答。 - 第25回 高级 RAG(上)——查询变换与 HyDE
重写、分解、Step-back:让“问得更像文档”的检索术。 - 第26回 高级 RAG(中)——混合搜索与重排序
BM25+向量的互补;交叉编码器重排与上下文压缩。 - 第27回 高级 RAG(下)——模块化架构与训练方法
路由、记忆、验证与合成:把 RAG 变成可控系统。 - 第28回 RAG 生产扩展——并行、缓存与隐私保护
规模化落地的现实账:延迟、成本、缓存与数据安全。 - 第29回 超长上下文时代——RAG 还有用吗?
当上下文变“很长”:RAG 何时该退场、何时该升级为 Agentic RAG。 - 第30回 知识图谱基础——图、三元组与图算法
图的语言:实体-关系-实体与最短路、子图、路径的推理直觉。
第四篇:行动与协作(从图到工作流)
- 第31回 构建知识图谱——NER、关系抽取与 LLM 辅助
从文本到三元组:抽取、消歧与用大模型做弱监督。 - 第32回 GraphRAG——图上的检索增强流程
以实体与路径引导检索:把“相关段落”升级为“相关子图”。 - 第33回 图上的推理——知识图谱嵌入
TransE、RotatE、ComplEx:把图的几何结构压进向量空间。 - 第34回 图上的推理——图神经网络基础
消息传递与聚合:GCN、GAT、GraphSAGE 的共同骨法。 - 第35回 LLM 与图的协同——图提示与联合模型
线性化图、图作为外部记忆:LLM+GNN 的组合拳。 - 第36回 规划与自省——从分解任务到反思循环
Planner/Reflector 的来由:Reflexion、纠错与迭代改写。 - 第37回 长期记忆——让智能体记住你
持久化记忆与个性化:跨会话存取、遗忘策略与安全边界。 - 第38回 单智能体现代实例——状态机工作流与可验证执行
用状态机把复杂任务变成可控流程:分支、回滚与审计。 - 第39回 多智能体协作——分工、辩论与协调算法
主从、平等、辩论:通信协议、任务分配与共识机制。 - 第40回 多智能体失败分析——常见失败模式与原因
冲突、幻觉、奖励黑客与验证缺失:系统性失败的根因图谱。
第五篇:反思与未来(从架构到可解释)
- 第41回 后 Transformer 时代——SSM、Mamba 与线性注意力
把 O(N²) 变 O(N):状态空间与选择性扫描如何应对百万 Token。 - 第42回 原生多模态——从拼接到同一套 Token 空间
Early fusion 的直觉:文本、图像、音频如何共享表示与对齐信号。 - 第43回 推理的边界——模式匹配还是真正推理?
让质疑落到实验:何时像直觉、何时像证明,慢思考给出何种答案。 - 第44回 创造力与可解释性——稀疏自编码器与字典学习
拆解“念头”:特征发现、概念神经元与可控的理解路径。 - 第45回 模型操控与安全——特征转向、消融与对齐的未来
Steering 与 A/Blation:从“教它别说”到“让它不会想”的安全想象。