第42回 原生多模态——从拼接到同一套 Token 空间
一锅能煮千般味,先把材料切成丁。
文字图像皆成粒,顺着一口锅里烹。
第41回我们说“后 Transformer”的一个现实推动力:长上下文更便宜,系统就敢吃更多证据。
这一回再推一步:
既然 token 可以很长,那 token 也可以不止是文字。
所谓“原生多模态”,说穿了就是一句话:
把图像/视频/音频也离散成 token,让模型像写作文一样“写出”图像与视频。
这和早年的“图像编码器 + 语言模型”拼接法不同:
拼接法更像“翻译”:先把图翻成一串视觉特征,再让 LLM读;
原生法更像“一锅炖”:所有模态都变成同一种 token,按同一种下一个 token 预测训练。
一、两种路线:拼接派 vs 统一派
为了不把看官讲糊涂,我们用“厨房”比喻:
- 拼接派(compositional):先把菜炒熟(视觉编码器),再端给 LLM 吃
- 统一派(early-fusion / token-based):把菜切成丁(离散 token),和米一起煮(同一预测目标)
统一派的野心更大:
它想做“能读图、能写图、能混着读写”的通用模型——像读一份带图文混排的文档那样自然。
Chameleon 就是这一派的代表之一:
它强调“早融合 + token 化”的混合模态训练,使模型能在任意顺序的图文序列中理解与生成。1
二、关键手艺:把连续世界切成离散 token
语言天然是离散符号;
图像视频是连续信号。
统一派要做的第一件事,就是把连续信号离散化:
- 把图像切块、量化成离散码(可类比“把地图压成格子编号”)
- 把视频当作更长的序列(帧 token + 时序结构)
当你把图像 token 化后,“生成图像”就变成:
预测下一个视觉 token。
Emu3 明确把这条路提到台前:
它用“仅靠 next-token prediction”的方式,同时做多模态理解与生成,并强调统一 token 序列带来的训练与推理可扩展性。2
你会发现它和导读的主线暗合:
大模型的强处常常来自“把问题变成序列预测”,再用规模与工程把它推到底。
三、为什么说这是“原生”:因为图文混排变成自然语言的同类
统一 token 的真正价值不在“能画画”,而在“能处理混排结构”:
- 一段文字解释一张图
- 再接一段图作为证据
- 再输出一张图作为结果
对拼接派来说,这些是多个子系统互相传递的接口问题;
对统一派来说,这就是“一个长序列里 token 的前后关系”。
Chameleon 的目标之一就是这种“完整多模态文档”的统一建模。1
四、原生多模态的难点:不是能不能学,而是怎么不乱学
统一派看似优雅,落地时却有几道硬关:
- 对齐:同一个语义在文字与图像里如何对齐?
- 压缩:视觉 token 太多,冗余太大,怎么降成本?
- 安全:能生成图像/视频后,安全与版权边界更复杂
- 评测:到底是在“看懂”还是在“贴模板”?
这些问题的难点和第43回“推理的边界”相通:
评测若不严,模型的“会”可能只是“像”。
五、小结:统一 token 是一条路,统一能力是另一条路
看官记住这一回的落点:
- 原生多模态的核心是统一 token 与统一训练目标
- 它让混排输入输出变得自然,但也把对齐、压缩与安全问题推到更前台
下一回(第43回)我们专讲一个“热闹背后的冷问题”:
推理的边界——慢思考到底是真推理,还是更高级的模式匹配?
欲知后事如何,且听下回分解。
幻觉核查
- Chameleon 的“早融合 token 化混合模态序列、可图文任意顺序理解与生成”:可核对论文摘要与方法概述。1
- Emu3 的“仅靠 next-token prediction 的多模态理解与生成”:可核对论文摘要与贡献陈述。2
- 本回对“拼接派/统一派”的分类是科普归纳,现实系统常混合使用(例如先压缩视觉 token 再统一序列)。
逻辑审计
- 与第41回衔接:长上下文的效率问题解决后,下一步自然是让上下文承载更多模态。
- 与导读一致:导读强调“推理时多走几步”,多模态把“走路的材料”从文字扩展到现实世界信号。
- 为第43回铺路:当模型能写出图像,如何判断它真的理解、真的推理,就需要更严的边界讨论。
引用与溯源
Footnotes
-
Chameleon Team. Chameleon: Mixed-Modal Early-Fusion Foundation Models arXiv:2405.09818 (v2: 2025-03-21) https://arxiv.org/abs/2405.09818 ↩ ↩2 ↩3
-
Wang, X., et al. Emu3: Next-Token Prediction is All You Need arXiv:2409.18869 (2024-09-27) https://arxiv.org/abs/2409.18869 ↩ ↩2