Jarvis' Blog (总有美丽的风景让人流连) 总有美丽的风景让人流连

大模型(三): 基础大模型 (AweSome Foundation Models)

2024-11-12
Jarvis
Post

基础大模型论文列表

生成

2024 - Fluid
2022 - MIM Scaling Laws

理解

2023 - SAM
2021 - CLIP
2021 - Florence

生成 + 理解

2024 - Emu3
2024 - Show-o
2024 - Transfusion
2024 - Chameleon
2024 - Survey: Unifying Und&Gen in AR
2023 - DreamLLM

2024 年

Fluid

Fluid: Scaling Autoregressive Text-to-image Generative Models with Continuous Tokens 单位: Google DeepMind, MIT

[PDF]

探讨了 Autoregressive 模型在连续 token 和离散 token, random order 和 raster order 上训练的效果和 scaling 能力. 评估指标上连续 token + random order 效果最好.

图 1. Autoregressive models with different orders.

Emu3

Emu3: Next-Token Prediction is All You Need 单位: BAAI

[PDF] [Project] [GitHub]

使用 Next Token Prediction 训练理解生成的统一模型, 完成理解和图、视频生成等任务. 自己训练了基于 SBER-MoVQGAN 的图+视频统一的 tokenizer.

图 2. Emu3

Show-o

Show-o: One Single Transformer to Unify Multimodal Understanding and Generation 单位: NUS, 字节

[PDF] [Project] [GitHub] [HuggingFace]

图像部分采用 Mask Image Modeling 和 Full Attention 的方案训练, 文本部分采用 Next Token Prediction 和 Causal Attention 的方案训练. 自己训练了一个 MAGVITv2 作为 tokenizer.

图 3. Show-o 结构

图 4. Show-o 不同任务的序列构造

图 5. Show-o Attention Mask 构造

Transfusion

Transfusion: Predict the Next Token and Diffuse Images with One Multi-Modal Model 单位: Meta, Waymo

[PDF]

图像部分采用 VAE 编码到隐空间, 用 diffusion 的方式训练; 文本部分采用 Next Token Prediction 训练.

图 6. Transfusion

Chameleon

Chameleon: Mixed-Modal Early-Fusion Foundation Models 单位: Meta

[PDF]

使用 Next Token Prediction 训练生成理解统一的模型. 自己训练了基于 Make-a-Scene 的 tokenizer. 训练数据包含文本、图文对、图文交织.

图 7. Chameleon

Survey: Unifying Und&Gen in AR

Towards Unifying Understanding and Generation in the Era of Vision Foundation Models: A Survey from the Autoregression Perspective 单位: 北大, 清华

[PDF]

综述统一理解和生成的基于 AutoRegressive 范式的工作.

图 8. Vision Tokenizers 分类

图 9. Autoregression 结构分类

2023 年

DreamLLM

DreamLLM: Synergistic Multimodal Comprehension and Creation 单位: 西安交大, 旷视

[PDF] [Project] [GitHub]

协同的多模态理解和生成.

图 10. DreamLLM

SAM

Segment Anything 单位: Meta

[PDF] [Project] [GitHub]

SAM 交互分割模型, 分割一切

图 11. SAM

2022 年

Masked Image Modeling Scaling Laws

On Data Scaling in Masked Image Modeling 单位: 清华, 西安交大, MSRA

[PDF]

(1) Mask modeling 需要大数据; (2) 训练的久一点会更好; (3) Validation loss 是个很好的评估下游任务性能的指标.

图 12. Masked Modeling Scaling Laws

2021 年

CLIP

Learning Transferable Visual Models From Natural Language Supervision 单位: OpenAI

[PDF] [Project] [GitHub] [HuggingFace]

CLIP 是一个图文的多模态模型, 对图像和文本通过对比学习联合训练实现图文对齐.

图 13. CLIP

Florence

Florence: A New Foundation Model for Computer Vision 单位: Microsoft

[PDF]

统一视觉理解任务到 空间-时间-模态 三个维度, 完成所有视觉的理解任务.

图 14. Florence


Content