最近因为一个契机,我从头开始参与基础大模型的训练开发。亲身经历去实践这个过程令我兴奋,也让我学到很多。有一些心得体会可以分享:

最近因为一个契机,我从头开始参与基础大模型的训练开发。亲身经历去实践这个过程令我兴奋,也让我学到很多。有一些心得体会可以分享: 1. 人们常说GPT模型学习了整个互联网的数据,听上去只要能够把整个互联网爬下来就可以了,这个说法并不准确。训练的原始数据的确是来自互联网(CommonCrawl和私域的内容),但是实际拿来训练用的只是其中的子集一个精心挑选的高质量子集。Sam Altman和Lex Friedman的访谈中说过,他们在数据上的大部分努力是去筛选信息,而不是堆积信息。原始数据需要经过大量的筛选、去重、格式化的处理,这个过程耗时耗力,也往往被忽视,但却是至关重要的。 2. 随着模型的参数上到百亿甚至千亿,很多新的能力开始涌现,而很多工程上的麻烦也随之而来。为了应对如此庞大的数据和模型体量,系统里几乎每个角落都需要优化,从数据处理、切分、训练时的样本和机器分布、梯度下降的稳定性、存储等等,各个方面都需要对应做提升,避免成为短板。一个成功的大模型背后离不开几十上百个细节的工程优化。 3. 一个还不成熟、有待考验的心得:现在想要做一个LLM,你并不需要一支庞大的团队。你只需要不到10个有经验、有行动力、能够高效合作的工程师就可以了。Meta、OpenAI、HuggingFace等团队都为这个生态提供了非常实用的轮子,只要使用得当,就可以获得明显的助力。当然,人数上可以精简,GPU计算资源还是得管够。

相关推荐

封面图片

:用C从头开始构建Linux容器

:用C从头开始构建Linux容器 这是作者从事的一个项目,旨在根据互联网上的其他指南了解有关 Linux 容器和 Linux 内核的更多信息。Linux 容器由一组 Linux 内核功能组成: namespaces:用于将内核对象分组为可由特定进程树访问的不同集合。有不同的类型namespaces,例如,PID命名空间用于隔离进程树,而network命名空间用于隔离网络堆栈。 seccomp:用于限制进程可以进行的系统调用(通过系统调用处理) capabilities: 用于设置 uid 0 (root) 可以执行的操作的限制(通过系统调用处理) cgroups:用于限制进程可以使用的资源(例如内存、磁盘 I/O、CPU-tme)(通过 cgroupfs 处理)。 目前,该项目不包含任何自动化测试或记录代码的工具。将来,可能会添加合适的自动化测试和文档工具。

封面图片

人工智能对人工智能生成的内容进行训练将导致人工智能崩溃

人工智能对人工智能生成的内容进行训练将导致人工智能崩溃 用于训练大型语言模型的数据最初来自人类来源,如书籍、文章、照片等,这些都是在没有人工智能的帮助下创建的。但随着越来越多的人使用人工智能来制作和发布内容,一个明显的问题出现了:当人工智能生成的内容在互联网上扩散时,人工智能模型开始对其进行训练。研究人员发现,“在训练中使用模型生成的内容会导致所产生的模型出现不可逆转的缺陷。”他们研究了文本到文本和图像到图像的人工智能生成模型的概率分布,得出结论:“从其他模型产生的数据中学习会导致模型崩溃 这是一个退化的过程,并且随着时间的推移,模型会忘记真正的基础数据分布。”他们观察到模型崩溃发生得如此之快:模型可以迅速忘记它们最初学习的大部分原始数据。这导致它们随着时间的推移,表现越来越差,错误越来越多。来源 , 来自:雷锋 频道:@kejiqu 群组:@kejiquchat 投稿:@kejiqubot

封面图片

Google DeepMind 公布 Genie 模型,可生成可交互的虚拟环境

Google DeepMind 公布 Genie 模型,可生成可交互的虚拟环境 Google DeepMind 今天介绍了 Genie ,一种根据互联网视频训练的基础世界模型,可以从合成图像、照片甚至草图生成无数种可玩(动作可控)的世界。 Genie 可以用它以前从未见过的图像来作为输入,使人们能够与生成的虚拟世界进行交互。它由一个时空视频标记器、一个自回归动力学模型和一个简单且可扩展的潜在行动模型组成。该模型可根据没有任何标注数据的公开互联网视频的大型数据集进行训练。该模型当前专注于 2D 平台游戏和机器人的视频,但其方法是通用的,并且可以扩展到任何类型的领域和更大的数据集。 团队还通过使用 Google 的 RT-1 机器人的摄像头视频数据训练模型,表明 Genie 能够学习与现实世界一致的动作空间。这可能产生一个现实世界模拟器,以便训练未来的通用智能体。 ,

封面图片

类似 ChatGPT 的系统如何工作?|

类似 ChatGPT 的系统如何工作?| 我们试图在下图中解释它是如何工作的。该过程可以分为两部分。 1. 培训。要训练 ChatGPT 模型,有两个阶段: - 预训练:在此阶段,我们在大量互联网数据上训练 GPT 模型(仅解码器变压器)。目标是训练一个模型,该模型可以以类似于互联网数据的语法正确且语义有意义的方式预测给定句子的未来单词。经过预训练阶段后,模型可以完成给定的句子,但无法回答问题。 - 微调:此阶段分为 3 个步骤,将预训练模型转变为问答型 ChatGPT 模型: 1).收集训练数据(问题和答案),并根据这些数据微调预训练模型。该模型将问题作为输入,并学习生成与训练数据类似的答案。 2).收集更多数据(问题、多个答案)并训练奖励模型,将这些答案从最相关到​​最不相关进行排序。 3).使用强化学习(PPO 优化)对模型进行微调,使模型的答案更加准确。 2. 回答提示 第 1 步:用户输入完整的问题“解释分类算法的工作原理”。 步骤 2:问题被发送到内容审核组件。该组件确保问题不违反安全准则并过滤不适当的问题。 步骤 3-4:如果输入通过内容审核,则将其发送到 chatGPT 模型。如果输入未通过内容审核,则直接进入模板响应生成。 步骤 5-6:模型生成响应后,它会再次发送到内容审核组件。这确保了生成的响应是安全的、无害的、公正的等。 步骤 7:如果输入通过内容审核,则会向用户显示。如果输入未通过内容审核,则会进入模板响应生成并向用户显示模板答案。

封面图片

OpenAI主动公开自家爬虫,撇清窃取数据之嫌?OpenAI的网络爬虫GPTBot可以自动从整个互联网上抓取数据。OpenAI称

OpenAI主动公开自家爬虫,撇清窃取数据之嫌?OpenAI的网络爬虫GPTBot可以自动从整个互联网上抓取数据。OpenAI称将使用这些数据将用于训练未来的AI模型。如果不希望GPTBot访问你的网站,可以将GPTBot添加到你网站的robots.txt文件中 #抽屉IT

封面图片

研究表明用AI产生的语料来训练AI将使其退化并最终崩溃

研究表明用AI产生的语料来训练AI将使其退化并最终崩溃 现在,随着越来越多的人使用 AI 来制作和发布内容,一个明显的问题出现了:当 AI 生成的内容在互联网上激增并且 AI 模型开始用其进行训练,而不是使用主要人类生成的内容时,会发生什么? 来自英国和加拿大的一组研究人员已经研究了这个问题,并且最近在开放获取期刊 arXiv 上发表了一篇关于他们工作的论文。他们的发现令当前的生成式 AI 技术及其未来令人担忧:“我们发现在训练中使用模型生成的内容会导致生成的模型出现不可逆转的缺陷。” 研究人员专门研究了文本到文本和图像到图像 AI 生成模型的概率分布,得出结论:“从其他模型生成的数据中学习会导致模型崩溃一个退化过程,随着时间的推移,模​​型会忘记真正的底层数据分布……这个过程是不可避免的,即使对于具有近乎理想的长期学习条件的情况也是如此。” “随着时间的推移,生成数据中的错误会复合并最终迫使从生成数据中学习的模型进一步错误地感知现实,”该论文的主要作者之一 Ilia Shumailov 在给 VentureBeat 的电子邮件中写道。“我们惊讶地观察到模型崩溃发生的速度有多快:模型可以迅速忘记他们最初从中学习的大部分原始数据。” 换句话说:当 AI 训练模型接触到更多 AI 生成的数据时,它的性能会随着时间的推移而变差,在其生成的响应和内容中产生更多错误,并在其响应中产生更少的非错误多样性。 额外编辑:研究人员同样担忧,目前互联网上AI生成内容正在迅速增加,训练下一代ai的数据正在被迅速污染。

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人