第42回　原生多模态——从拼接到同一套 Token 空间

一锅能煮千般味，先把材料切成丁。
文字图像皆成粒，顺着一口锅里烹。

第41回我们说“后 Transformer”的一个现实推动力：长上下文更便宜，系统就敢吃更多证据。
这一回再推一步：
既然 token 可以很长，那 token 也可以不止是文字。

所谓“原生多模态”，说穿了就是一句话：

把图像/视频/音频也离散成 token，让模型像写作文一样“写出”图像与视频。

这和早年的“图像编码器 + 语言模型”拼接法不同：
拼接法更像“翻译”：先把图翻成一串视觉特征，再让 LLM读；
原生法更像“一锅炖”：所有模态都变成同一种 token，按同一种下一个 token 预测训练。

一、两种路线：拼接派 vs 统一派

为了不把看官讲糊涂，我们用“厨房”比喻：

统一派的野心更大：
它想做“能读图、能写图、能混着读写”的通用模型——像读一份带图文混排的文档那样自然。

Chameleon 就是这一派的代表之一：
它强调“早融合 + token 化”的混合模态训练，使模型能在任意顺序的图文序列中理解与生成。¹

语言天然是离散符号；
图像视频是连续信号。
统一派要做的第一件事，就是把连续信号离散化：

当你把图像 token 化后，“生成图像”就变成：

预测下一个视觉 token。

Emu3 明确把这条路提到台前：
它用“仅靠 next-token prediction”的方式，同时做多模态理解与生成，并强调统一 token 序列带来的训练与推理可扩展性。²

你会发现它和导读的主线暗合：
大模型的强处常常来自“把问题变成序列预测”，再用规模与工程把它推到底。

统一 token 的真正价值不在“能画画”，而在“能处理混排结构”：

对拼接派来说，这些是多个子系统互相传递的接口问题；
对统一派来说，这就是“一个长序列里 token 的前后关系”。

Chameleon 的目标之一就是这种“完整多模态文档”的统一建模。¹

统一派看似优雅，落地时却有几道硬关：

这些问题的难点和第43回“推理的边界”相通：
评测若不严，模型的“会”可能只是“像”。

看官记住这一回的落点：

下一回（第43回）我们专讲一个“热闹背后的冷问题”：
推理的边界——慢思考到底是真推理，还是更高级的模式匹配？

欲知后事如何，且听下回分解。

Chameleon Team. Chameleon: Mixed-Modal Early-Fusion Foundation Models arXiv:2405.09818 (v2: 2025-03-21) https://arxiv.org/abs/2405.09818 ↩ ↩² ↩³
Wang, X., et al. Emu3: Next-Token Prediction is All You Need arXiv:2409.18869 (2024-09-27) https://arxiv.org/abs/2409.18869 ↩ ↩²