第42回 原生多模态——从拼接到同一套 Token 空间

一锅能煮千般味,先把材料切成丁。
文字图像皆成粒,顺着一口锅里烹。

第41回我们说“后 Transformer”的一个现实推动力:长上下文更便宜,系统就敢吃更多证据。
这一回再推一步:
既然 token 可以很长,那 token 也可以不止是文字。

所谓“原生多模态”,说穿了就是一句话:

把图像/视频/音频也离散成 token,让模型像写作文一样“写出”图像与视频。

这和早年的“图像编码器 + 语言模型”拼接法不同:
拼接法更像“翻译”:先把图翻成一串视觉特征,再让 LLM读;
原生法更像“一锅炖”:所有模态都变成同一种 token,按同一种下一个 token 预测训练。


一、两种路线:拼接派 vs 统一派

为了不把看官讲糊涂,我们用“厨房”比喻:

  • 拼接派(compositional):先把菜炒熟(视觉编码器),再端给 LLM 吃
  • 统一派(early-fusion / token-based):把菜切成丁(离散 token),和米一起煮(同一预测目标)

统一派的野心更大:
它想做“能读图、能写图、能混着读写”的通用模型——像读一份带图文混排的文档那样自然。

Chameleon 就是这一派的代表之一:
它强调“早融合 + token 化”的混合模态训练,使模型能在任意顺序的图文序列中理解与生成。1


二、关键手艺:把连续世界切成离散 token

语言天然是离散符号;
图像视频是连续信号。
统一派要做的第一件事,就是把连续信号离散化:

  • 把图像切块、量化成离散码(可类比“把地图压成格子编号”)
  • 把视频当作更长的序列(帧 token + 时序结构)

当你把图像 token 化后,“生成图像”就变成:

预测下一个视觉 token。

Emu3 明确把这条路提到台前:
它用“仅靠 next-token prediction”的方式,同时做多模态理解与生成,并强调统一 token 序列带来的训练与推理可扩展性。2

你会发现它和导读的主线暗合:
大模型的强处常常来自“把问题变成序列预测”,再用规模与工程把它推到底。


三、为什么说这是“原生”:因为图文混排变成自然语言的同类

统一 token 的真正价值不在“能画画”,而在“能处理混排结构”:

  • 一段文字解释一张图
  • 再接一段图作为证据
  • 再输出一张图作为结果

对拼接派来说,这些是多个子系统互相传递的接口问题;
对统一派来说,这就是“一个长序列里 token 的前后关系”。

Chameleon 的目标之一就是这种“完整多模态文档”的统一建模。1


四、原生多模态的难点:不是能不能学,而是怎么不乱学

统一派看似优雅,落地时却有几道硬关:

  1. 对齐:同一个语义在文字与图像里如何对齐?
  2. 压缩:视觉 token 太多,冗余太大,怎么降成本?
  3. 安全:能生成图像/视频后,安全与版权边界更复杂
  4. 评测:到底是在“看懂”还是在“贴模板”?

这些问题的难点和第43回“推理的边界”相通:
评测若不严,模型的“会”可能只是“像”。


五、小结:统一 token 是一条路,统一能力是另一条路

看官记住这一回的落点:

  • 原生多模态的核心是统一 token 与统一训练目标
  • 它让混排输入输出变得自然,但也把对齐、压缩与安全问题推到更前台

下一回(第43回)我们专讲一个“热闹背后的冷问题”:
推理的边界——慢思考到底是真推理,还是更高级的模式匹配?

欲知后事如何,且听下回分解。


幻觉核查

  • Chameleon 的“早融合 token 化混合模态序列、可图文任意顺序理解与生成”:可核对论文摘要与方法概述。1
  • Emu3 的“仅靠 next-token prediction 的多模态理解与生成”:可核对论文摘要与贡献陈述。2
  • 本回对“拼接派/统一派”的分类是科普归纳,现实系统常混合使用(例如先压缩视觉 token 再统一序列)。

逻辑审计

  • 与第41回衔接:长上下文的效率问题解决后,下一步自然是让上下文承载更多模态。
  • 与导读一致:导读强调“推理时多走几步”,多模态把“走路的材料”从文字扩展到现实世界信号。
  • 为第43回铺路:当模型能写出图像,如何判断它真的理解、真的推理,就需要更严的边界讨论。

引用与溯源

Footnotes

  1. Chameleon Team. Chameleon: Mixed-Modal Early-Fusion Foundation Models arXiv:2405.09818 (v2: 2025-03-21) https://arxiv.org/abs/2405.09818 2 3

  2. Wang, X., et al. Emu3: Next-Token Prediction is All You Need arXiv:2409.18869 (2024-09-27) https://arxiv.org/abs/2409.18869 2