欢迎来到 Jarvis 的博客!
基础大模型论文列表
2024 - Fluid
2022 - MIM Scaling Laws
2023 - SAM
2021 - CLIP
2021 - Florence
2024 - Emu3
2024 - Show-o
2024 - Transfusion
2024 - Chameleon
2024 - Survey: Unifying Und&Gen in AR
2023 - DreamLLM
Fluid: Scaling Autoregressive Text-to-image Generative Models with Continuous Tokens 单位: Google DeepMind, MIT
[PDF]
探讨了 Autoregressive 模型在连续 token 和离散 token, random order 和 raster order 上训练的效果和 scaling 能力. 评估指标上连续 token + random order 效果最好.
图 1. Autoregressive models with different orders.
Emu3: Next-Token Prediction is All You Need 单位: BAAI
使用 Next Token Prediction 训练理解生成的统一模型, 完成理解和图、视频生成等任务. 自己训练了基于 SBER-MoVQGAN 的图+视频统一的 tokenizer.
图 2. Emu3
Show-o: One Single Transformer to Unify Multimodal Understanding and Generation 单位: NUS, 字节
[PDF] [Project] [GitHub] [HuggingFace]
图像部分采用 Mask Image Modeling 和 Full Attention 的方案训练, 文本部分采用 Next Token Prediction 和 Causal Attention 的方案训练. 自己训练了一个 MAGVITv2 作为 tokenizer.
图 3. Show-o 结构
图 4. Show-o 不同任务的序列构造
图 5. Show-o Attention Mask 构造
Transfusion: Predict the Next Token and Diffuse Images with One Multi-Modal Model 单位: Meta, Waymo
[PDF]
图像部分采用 VAE 编码到隐空间, 用 diffusion 的方式训练; 文本部分采用 Next Token Prediction 训练.
图 6. Transfusion
Chameleon: Mixed-Modal Early-Fusion Foundation Models 单位: Meta
[PDF]
使用 Next Token Prediction 训练生成理解统一的模型. 自己训练了基于 Make-a-Scene 的 tokenizer. 训练数据包含文本、图文对、图文交织.
图 7. Chameleon
Towards Unifying Understanding and Generation in the Era of Vision Foundation Models: A Survey from the Autoregression Perspective 单位: 北大, 清华
[PDF]
综述统一理解和生成的基于 AutoRegressive 范式的工作.
图 8. Vision Tokenizers 分类
图 9. Autoregression 结构分类
DreamLLM: Synergistic Multimodal Comprehension and Creation 单位: 西安交大, 旷视
协同的多模态理解和生成.
图 10. DreamLLM
Segment Anything 单位: Meta
SAM 交互分割模型, 分割一切
图 11. SAM
On Data Scaling in Masked Image Modeling 单位: 清华, 西安交大, MSRA
[PDF]
(1) Mask modeling 需要大数据; (2) 训练的久一点会更好; (3) Validation loss 是个很好的评估下游任务性能的指标.
图 12. Masked Modeling Scaling Laws
Learning Transferable Visual Models From Natural Language Supervision 单位: OpenAI
[PDF] [Project] [GitHub] [HuggingFace]
CLIP 是一个图文的多模态模型, 对图像和文本通过对比学习联合训练实现图文对齐.
图 13. CLIP
Florence: A New Foundation Model for Computer Vision 单位: Microsoft
[PDF]
统一视觉理解任务到 空间-时间-模态 三个维度, 完成所有视觉的理解任务.
图 14. Florence
在阅读 OpenAI 的 Scaling Laws 一文时, 看到了关于 batch size 的讨论. 这引导我们回来考古一下 2018 年 OpenAI 的一篇文章《An Empirical Model of Large-Batch Training》, 当时已经发现模型可以有效地用大 batch 训练, 而该文章发现不同 domain 下选择的 batch 可能会差几个数量级. 那么一个自然的问题是: 当我们有比较充足的计算资源, 并且希望充分且高效的利用这批计算资源时, 如何选择合适的 batch size 呢? 这篇文章为解决这个问题提出了 gradient noise scale 的概念.
大模型时代, 在数十亿到数千亿的数据上训练一个十亿到千亿级别的模型成本是非常高的, 任何一次实验都意味着数百万的投入, 因此实验效果的可靠预测是一个绕不开的目标. 我们在训练一个大模型的时候, 往往需要回答下面的这些问题:
这些问题 OpenAI 在《Scaling Laws for Neural Language Models》中做了详细的实验和解答, 这些实验和想法为我们提供了非常多的研究思路.
大模型时代, 在数十亿到数千亿的数据上训练一个十亿到千亿级别的模型成本是非常高的, 任何一次实验都意味着数百万的投入, 因此实验效果的可靠预测是一个绕不开的目标. 我们在训练一个大模型的时候, 往往需要回答下面的这些问题:
这些问题 OpenAI 在《Scaling Laws for Neural Language Models》中做了详细的实验和解答, 这些实验和想法为我们提供了非常多的研究思路.
Transformer 的参数量和计算量是现在做大模型绕不开的一环. 我们采用 OpenAI 关于 Scaling Laws 一文《Scaling Laws for Neural Language Models》中的记号来总结一下.
我们对ChatGPT的插件商店中总共70款插件进行了评测。区别于Chrome,AppStore等平台的代码开发范式,开发者仅使用自然语言就可以开发ChatGPT插件,并由GPT模型自行决定在使用过程中是否调用插件。约八成插件集中于购物、餐饮、旅行、住房和求职场景,其余分布在教育、财经咨讯、内容社区和编程技术场景。商业分析、游戏、身体/心理健康、社交以及家庭和育儿场景是蓝海。约七成插件用于已有平台的商业导流,同质化严重;联网、实时信息获取和阅读网页/PDF功能是刚需。Wolfram(数学计算)、WebPilot(网页阅读)、Speak(专业翻译)、Prompt Perfect(提示词润色)、Diagram It(流程图绘制)、AskYourPDF(PDF阅读)、CreatiCode Scratch(少儿编程)、Chess(国际象棋游戏教练)、edX(公开课学习)、FiscalNote(政策咨询)等插件值得一试。
HTTP 是一种用于分布式、协作式和超媒体信息系统的应用层协议, 它是一种发布和接收 HTML 页面的方法, 被用于在Web浏览器和网站服务器之间传递信息. HTTP 默认工作在 TCP 协议 80 端口, 但它以明文方式发送内容, 不提供任何方式的数据加密, 因此不适合传输敏感信息.
为了解决 HTTP 不安全的问题, HTTPS 应运而生. HTTPS 是一种透过计算机网络进行安全通信的传输协议, 它经由 HTTP进行通信, 但利用 SSL/TLS 来加密数据包保证数据的机密性和完整性. HTTPS 默认工作在 TCP 协议 443 端口. HTTPS 比 HTTP 更加安全, 适合传输敏感信息.