Jarvis' Blog (总有美丽的风景让人流连)

大模型(三): 基础大模型 (AweSome Foundation Models)

2024-11-12

Jarvis

大模型

收集整理生成和理解多模态大模型.

阅读全文

大 Batch Size 训练模型(Large Batch Training)

2024-07-07

Jarvis

大模型深度学习

在阅读 OpenAI 的 Scaling Laws 一文时, 看到了关于 batch size 的讨论. 这引导我们回来考古一下 2018 年 OpenAI 的一篇文章《An Empirical Model of Large-Batch Training》, 当时已经发现模型可以有效地用大 batch 训练, 而该文章发现不同 domain 下选择的 batch 可能会差几个数量级. 那么一个自然的问题是: 当我们有比较充足的计算资源, 并且希望充分且高效的利用这批计算资源时, 如何选择合适的 batch size 呢? 这篇文章为解决这个问题提出了 gradient noise scale 的概念.

阅读全文

大模型(二): DeepMind 的 Scaling Laws 有什么不同?

2024-06-30

Jarvis

大模型

大模型时代, 在数十亿到数千亿的数据上训练一个十亿到千亿级别的模型成本是非常高的, 任何一次实验都意味着数百万的投入, 因此实验效果的可靠预测是一个绕不开的目标. 我们在训练一个大模型的时候, 往往需要回答下面的这些问题:

模型的效果对哪些变量是强依赖的?
如果给你 X 张 GPU, Y 个月的时间, 你能训出一个什么效果的模型?
如果给你把计算资源翻倍, 你能把效果提升到什么水平? 模型需要扩到多大? 数据需要加多少?
模型训练多久就可以停下了?

这些问题 OpenAI 在《Scaling Laws for Neural Language Models》中做了详细的实验和解答, 这些实验和想法为我们提供了非常多的研究思路.

阅读全文

大模型(一): Scaling Laws - OpenAI 提出的科学法则

2024-06-30

Jarvis

大模型

大模型时代, 在数十亿到数千亿的数据上训练一个十亿到千亿级别的模型成本是非常高的, 任何一次实验都意味着数百万的投入, 因此实验效果的可靠预测是一个绕不开的目标. 我们在训练一个大模型的时候, 往往需要回答下面的这些问题:

模型的效果对哪些变量是强依赖的?
如果给你 X 张 GPU, Y 个月的时间, 你能训出一个什么效果的模型?
如果给你把计算资源翻倍, 你能把效果提升到什么水平? 模型需要扩到多大? 数据需要加多少?
模型训练多久就可以停下了?

这些问题 OpenAI 在《Scaling Laws for Neural Language Models》中做了详细的实验和解答, 这些实验和想法为我们提供了非常多的研究思路.

阅读全文

Transformer 的参数量和计算量

2024-06-29

Jarvis

Transformer 大模型

Transformer 的参数量和计算量是现在做大模型绕不开的一环. 我们采用 OpenAI 关于 Scaling Laws 一文《Scaling Laws for Neural Language Models》中的记号来总结一下.

阅读全文

ChatGPT 70 款插件测评惊艳的开发过程与宏大的商业化愿景

2023-05-15

Jarvis

大模型

我们对ChatGPT的插件商店中总共70款插件进行了评测。区别于Chrome，AppStore等平台的代码开发范式，开发者仅使用自然语言就可以开发ChatGPT插件，并由GPT模型自行决定在使用过程中是否调用插件。约八成插件集中于购物、餐饮、旅行、住房和求职场景，其余分布在教育、财经咨讯、内容社区和编程技术场景。商业分析、游戏、身体/心理健康、社交以及家庭和育儿场景是蓝海。约七成插件用于已有平台的商业导流，同质化严重；联网、实时信息获取和阅读网页/PDF功能是刚需。Wolfram（数学计算）、WebPilot（网页阅读）、Speak（专业翻译）、Prompt Perfect（提示词润色）、Diagram It（流程图绘制）、AskYourPDF（PDF阅读）、CreatiCode Scratch（少儿编程）、Chess（国际象棋游戏教练）、edX（公开课学习）、FiscalNote（政策咨询）等插件值得一试。

阅读全文

HTTPS 配置教程 (A Tutorial for HTTPS)

2023-04-26

Jarvis

Config

HTTP 是一种用于分布式、协作式和超媒体信息系统的应用层协议, 它是一种发布和接收 HTML 页面的方法, 被用于在Web浏览器和网站服务器之间传递信息. HTTP 默认工作在 TCP 协议 80 端口, 但它以明文方式发送内容, 不提供任何方式的数据加密, 因此不适合传输敏感信息.

为了解决 HTTP 不安全的问题, HTTPS 应运而生. HTTPS 是一种透过计算机网络进行安全通信的传输协议, 它经由 HTTP进行通信, 但利用 SSL/TLS 来加密数据包保证数据的机密性和完整性. HTTPS 默认工作在 TCP 协议 443 端口. HTTPS 比 HTTP 更加安全, 适合传输敏感信息.

阅读全文

Welcome to Jarvis's Blog!

大模型(三): 基础大模型 (AweSome Foundation Models)

大 Batch Size 训练模型(Large Batch Training)

大模型(二): DeepMind 的 Scaling Laws 有什么不同?

大模型(一): Scaling Laws - OpenAI 提出的科学法则

Transformer 的参数量和计算量

ChatGPT 70 款插件测评 惊艳的开发过程与宏大的商业化愿景

HTTPS 配置教程 (A Tutorial for HTTPS)

ChatGPT 70 款插件测评惊艳的开发过程与宏大的商业化愿景