ColossalAI,一个大模型深度学习系统,提供了一系列开发工具,让分布式 AI 模型训练流程变得更加简单。项目有完整的中文教

ColossalAI,一个大模型深度学习系统,提供了一系列开发工具,让分布式 AI 模型训练流程变得更加简单。项目有完整的中文教程 另外,该项目近期已无缝支持 Hugging Face,开发者仅需添加几行代码,便可实现大模型的低成本训练和微调。 ||

相关推荐

封面图片

自动化分布式深度学习系统,在分布式集群上自动化训练深度学习模型

自动化分布式深度学习系统,在分布式集群上自动化训练深度学习模型 DLRover 自动在分布式集群上训练深度学习模型。它可以帮助模型开发人员专注于模型架构,而无需关心任何工程方面的事情,比如硬件加速、分布式运行等。现在,它为 K8s/Ray 上的深度学习训练作业提供自动化运维。主要特点为 Automatic Resource Optimization自动优化作业资源,提高训练性能和资源利用率。 动态数据分片,动态分配训练数据给每个worker而不是平分,更快的worker更多数据。 容错,单节点故障转移,无需重新启动整个作业。 自动缩放,在节点级别和 CPU/内存级别自动扩展/缩减资源。 |#机器学习

封面图片

谷歌与 Hugging Face 合作,帮助开发人员训练 AI 模型

谷歌与 Hugging Face 合作,帮助开发人员训练 AI 模型 谷歌云与 AI 模型托管平台 Hugging Face 建立了新的合作伙伴关系,让开发人员无需支付谷歌云订阅费用即可构建、训练和部署 AI 模型。现在,使用 Hugging Face 平台的外部开发人员将能够 “经济高效” 地访问谷歌的张量处理单元 (TPU) 和 GPU 超级计算机,其中包括数千台 Nvidia 的热门且出口受限的 H100。谷歌表示,Hugging Face 用户可以在 “2024 年上半年” 开始使用人工智能应用构建平台 Vertex AI 和 Kubernetes 引擎,帮助训练和微调模型。 一一

封面图片

:开源大模型的统一后端接口,支持多种开源大模型

:开源大模型的统一后端接口,支持多种开源大模型 该项目为开源大模型的推理实现统一的接口接口,与OpenAI响应保持一致,具有以下特性: 以OpenAI ChatGPT API这样的方式调用开源分布式大模型 支持流式响应,实现打印机效果 实现文本嵌入模型,为文档知识问答提供支持 支持大规模语言模型开发工具langchain 的广泛功能 要简单的修改环境变量即可将开源模型作为chatgpt的替代模型,为大众应用提供反馈支持 支持加载经过自行训练的lora模型

封面图片

腾讯开源了个新项目embedx。 embedx是基于 c++ 开发的、完全自研的分布式 embedding 训练和推理框架。它目

腾讯开源了个新项目embedx。 embedx是基于 c++ 开发的、完全自研的分布式 embedding 训练和推理框架。它目前支持 图模型、深度排序、召回模型和图与排序、图与召回的联合训练模型等 目前已经在腾讯的多个产品上应用。已经实现的模型: 十亿级节点、千亿级边的 图模型 百亿级样本、百亿特征的 深度排序、召回模型 十亿级节点、千亿级边与百亿级样本、百亿特征的 图与深度排序、图与深度召回的联合建模模型

封面图片

富士通发布"Fugaku-LLM" 在超级计算机"富岳"上训练的日语增强大语言模型

富士通发布"Fugaku-LLM" 在超级计算机"富岳"上训练的日语增强大语言模型 理化学研究所的超级计算机 Fugaku为了在 Fugaku 上训练大型语言模型,研究人员开发了分布式训练方法,包括将深度学习框架 Megatron-DeepSpeed 移植到 Fugaku,以优化变形金刚在 Fugaku 上的性能。他们加速了 Transformers 的密集矩阵乘法库,并通过结合三种并行化技术优化了 Fugaku 的通信性能,还加速了 Tofu 互联 D 上的集体通信库。Fugaku-LLM 有 130 亿个参数,比日本广泛开发的 70 亿个参数模型更大。Fugaku-LLM 增强了日语能力,在日语 MT-Bench 中平均得分 5.5,是使用日本原始数据训练的开放模型中最高的。特别是人文和社会科学任务的基准性能达到了 9.18 分的惊人高分。Fugaku-LLM 是在 CyberAgent 收集的日语专有数据、英语数据和其他数据的基础上进行训练的。Fugaku-LLM 的源代码可在 GitHub 上获取,模型可在 Hugging Face 上获取。只要用户遵守许可证,Fugaku-LLM 可用于研究和商业目的。未来,随着更多研究人员和工程师参与改进模型及其应用,训练效率将得到提高,从而实现下一代创新研究和商业应用,例如科学模拟与生成式人工智能的联动,以及拥有成千上万人工智能的虚拟社区的社会模拟。研究背景近年来,大型语言模型(LLM)的发展十分活跃,尤其是在美国。其中,由 OpenAI 开发的 ChatGPT(6) 的迅速普及,对研发、经济体系和国家安全产生了深远影响。除美国外,其他国家也在本国投入大量人力和计算资源开发 LLM。日本也需要确保用于人工智能研究的计算资源,以免在这场全球竞赛中落后。人们对日本的旗舰超级计算机系统"Fugaku"寄予厚望,因此有必要改善在"Fugaku"上进行大规模分布式培训的计算环境,以满足这些期望。因此,东京工业大学、东北大学、富士通公司、理化学研究所、名古屋大学、CyberAgent 和 Kotoba Technologies 启动了一项关于开发大型语言模型的联合研究项目。各机构/公司的作用东京工业大学:大型语言模型的总体监督、并行化和通信加速(通过三种并行化组合优化通信性能,加速 Tofu 互联 D 上的集体通信)东北大学收集训练数据和选择模型富士通加速计算和通信(加速 Tofu 互联 D 上的集体通信、优化流水线并行化的性能)以及实施预训练和训练后微调理化学研究所:大规模语言模型的分布式并行化和通信加速(Tofu 互联 D 上的集体通信加速)名古屋大学研究 Fugaku-LLM 在 3D 生成式人工智能中的应用方法CyberAgent:提供训练数据Kotoba Technologies:将深度学习框架移植到 Fugaku未来发展这项研究的成果将通过 GitHub 和 Hugging Face 公开,以便其他研究人员和工程师可以利用这些成果进一步开发大型语言模型。只要用户遵守许可协议,Fugaku-LLM 可用于研究和商业目的。从 2024 年 5 月 10 日起,Fugaku-LLM 还将通过富士通研究门户网站提供给用户。未来,随着越来越多的研究人员和工程师参与到模型及其应用的改进中来,训练的效率将得到提高,从而实现下一代创新研究和商业应用,例如科学模拟与生成式人工智能的联系,以及拥有成千上万人工智能的虚拟社区的社会模拟。本研究得到了 Fugaku 政策支持提案"利用 Fugaku 开发大型语言模型的分布式并行训练"(提案号:hp230254)的支持。 ... PC版: 手机版:

封面图片

作为当下最受欢迎的开源 AI 大模型解决方案,GitHub 上一个开源项目 Colossal-AI 建立了一整套完整的 RLHF

作为当下最受欢迎的开源 AI 大模型解决方案,GitHub 上一个开源项目 Colossal-AI 建立了一整套完整的 RLHF 流程,包括:监督数据集收集 -> 监督微调 -> 奖励模型训练 -> 强化学习微调。 并且,技术团队以 LLaMA 为基础预训练模型,正式推出了 ColossalChat,这也是目前最接近 ChatGPT 原始技术方案的实用开源项目。 该项目包括但不限于以下功能: - Demo:可直接在线体验模型效果,无需注册或 waitinglist; - 训练代码:开源完整 RLHF 训练代码,已开源至含 7B 和 13B 两种模型; - 数据集:开源 104K 中、英双语数据集; - 推理部署:4bit 量化推理 70 亿参数模型仅需 4GB 显存; - 模型权重:仅需单台服务器少量算力即可快速复现; - 更大规模模型、数据集、其他优化等将保持高速迭代添加。 目前,相关代码已开源至 GitHub,感兴趣的同学可以看下。 项目还有提供完整的中文教程,进一步降低学习门槛,让大家能更快上手开发。 |||||

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人