基础大模型论文列表
生成
2024 - Fluid
2022 - MIM Scaling Laws
理解
2023 - SAM
2021 - CLIP
2021 - Florence
生成 + 理解
2024 - Emu3
2024 - Show-o
2024 - Transfusion
2024 - Chameleon
2024 - Survey: Unifying Und&Gen in AR
2023 - DreamLLM
2024 年
Fluid
Fluid: Scaling Autoregressive Text-to-image Generative Models with Continuous Tokens 单位: Google DeepMind, MIT
[PDF]
探讨了 Autoregressive 模型在连续 token 和离散 token, random order 和 raster order 上训练的效果和 scaling 能力. 评估指标上连续 token + random order 效果最好.
图 1. Autoregressive models with different orders.
Emu3
Emu3: Next-Token Prediction is All You Need 单位: BAAI
使用 Next Token Prediction 训练理解生成的统一模型, 完成理解和图、视频生成等任务. 自己训练了基于 SBER-MoVQGAN 的图+视频统一的 tokenizer.
图 2. Emu3
Show-o
Show-o: One Single Transformer to Unify Multimodal Understanding and Generation 单位: NUS, 字节
[PDF] [Project] [GitHub] [HuggingFace]
图像部分采用 Mask Image Modeling 和 Full Attention 的方案训练, 文本部分采用 Next Token Prediction 和 Causal Attention 的方案训练. 自己训练了一个 MAGVITv2 作为 tokenizer.
图 3. Show-o 结构
图 4. Show-o 不同任务的序列构造
图 5. Show-o Attention Mask 构造
Transfusion
Transfusion: Predict the Next Token and Diffuse Images with One Multi-Modal Model 单位: Meta, Waymo
[PDF]
图像部分采用 VAE 编码到隐空间, 用 diffusion 的方式训练; 文本部分采用 Next Token Prediction 训练.
图 6. Transfusion
Chameleon
Chameleon: Mixed-Modal Early-Fusion Foundation Models 单位: Meta
[PDF]
使用 Next Token Prediction 训练生成理解统一的模型. 自己训练了基于 Make-a-Scene 的 tokenizer. 训练数据包含文本、图文对、图文交织.
图 7. Chameleon
Survey: Unifying Und&Gen in AR
Towards Unifying Understanding and Generation in the Era of Vision Foundation Models: A Survey from the Autoregression Perspective 单位: 北大, 清华
[PDF]
综述统一理解和生成的基于 AutoRegressive 范式的工作.
图 8. Vision Tokenizers 分类
图 9. Autoregression 结构分类
2023 年
DreamLLM
DreamLLM: Synergistic Multimodal Comprehension and Creation 单位: 西安交大, 旷视
协同的多模态理解和生成.
图 10. DreamLLM
SAM
Segment Anything 单位: Meta
SAM 交互分割模型, 分割一切
图 11. SAM
2022 年
Masked Image Modeling Scaling Laws
On Data Scaling in Masked Image Modeling 单位: 清华, 西安交大, MSRA
[PDF]
(1) Mask modeling 需要大数据; (2) 训练的久一点会更好; (3) Validation loss 是个很好的评估下游任务性能的指标.
图 12. Masked Modeling Scaling Laws
2021 年
CLIP
Learning Transferable Visual Models From Natural Language Supervision 单位: OpenAI
[PDF] [Project] [GitHub] [HuggingFace]
CLIP 是一个图文的多模态模型, 对图像和文本通过对比学习联合训练实现图文对齐.
图 13. CLIP
Florence
Florence: A New Foundation Model for Computer Vision 单位: Microsoft
[PDF]
统一视觉理解任务到 空间-时间-模态 三个维度, 完成所有视觉的理解任务.
图 14. Florence