字节发布的这个MegaScale估计只有超级大厂才有用,一个在超过一万个 GPU 上训练 LLM 的生产系统。

字节发布的这个MegaScale估计只有超级大厂才有用,一个在超过一万个 GPU 上训练 LLM 的生产系统。 整个系统涵盖了从模型块和优化器设计到计算与通信的重叠、运算符优化、数据管道以及网络性能调整的算法和系统组件。 MegaScale 在训练一个 175B 参数的 LLM 模型时,在 12,288 GPU 上实现了 55.2% 的模型浮点运算利用率(Model FLOPs Utilization,MFU),相比 Megatron-LM 提升了 1.34 倍。 论文地址:

相关推荐

封面图片

Hidet是一个强大的深度学习编译器,可简化在现代加速器(例如 NVIDIA GPU)上实现高性能深度学习运算符的过程。借助 P

Hidet是一个强大的深度学习编译器,可简化在现代加速器(例如 NVIDIA GPU)上实现高性能深度学习运算符的过程。借助 PyTorch 2.0 中的新功能torch.compile(...),将新型编译器集成到 PyTorch 中比以往任何时候都更容易Hidet 现在可以用作torch.compile(...)加速 PyTorch 模型的后端,这对于想要提高其推理性能的 PyTorch 用户来说是一个有吸引力的选择模型,特别是对于那些还需要实施极其优化的自定义运算符的人。 | #编译器

封面图片

本项目旨在构建一个小参数量的llm,走完预训练 -> 指令微调 -> 奖励模型 -> 强化学习 四个阶段,以可控的成本完成一个可

本项目旨在构建一个小参数量的llm,走完预训练 -> 指令微调 -> 奖励模型 -> 强化学习 四个阶段,以可控的成本完成一个可以完成简单聊天任务的chat模型,目前完成前两个阶段。 使用bert4torch训练框架,代码简洁高效; 训练的checkpoint可以无缝衔接transformers,直接使用transformers包进行推理; 优化了训练时候文件读取方式,优化内存占用; 提供了完整训练log供复现比对; 增加自我认知数据集,可自定义机器人名称作者等属性。 chat模型支持多轮对话。

封面图片

富士通发布"Fugaku-LLM" 在超级计算机"富岳"上训练的日语增强大语言模型

富士通发布"Fugaku-LLM" 在超级计算机"富岳"上训练的日语增强大语言模型 理化学研究所的超级计算机 Fugaku为了在 Fugaku 上训练大型语言模型,研究人员开发了分布式训练方法,包括将深度学习框架 Megatron-DeepSpeed 移植到 Fugaku,以优化变形金刚在 Fugaku 上的性能。他们加速了 Transformers 的密集矩阵乘法库,并通过结合三种并行化技术优化了 Fugaku 的通信性能,还加速了 Tofu 互联 D 上的集体通信库。Fugaku-LLM 有 130 亿个参数,比日本广泛开发的 70 亿个参数模型更大。Fugaku-LLM 增强了日语能力,在日语 MT-Bench 中平均得分 5.5,是使用日本原始数据训练的开放模型中最高的。特别是人文和社会科学任务的基准性能达到了 9.18 分的惊人高分。Fugaku-LLM 是在 CyberAgent 收集的日语专有数据、英语数据和其他数据的基础上进行训练的。Fugaku-LLM 的源代码可在 GitHub 上获取,模型可在 Hugging Face 上获取。只要用户遵守许可证,Fugaku-LLM 可用于研究和商业目的。未来,随着更多研究人员和工程师参与改进模型及其应用,训练效率将得到提高,从而实现下一代创新研究和商业应用,例如科学模拟与生成式人工智能的联动,以及拥有成千上万人工智能的虚拟社区的社会模拟。研究背景近年来,大型语言模型(LLM)的发展十分活跃,尤其是在美国。其中,由 OpenAI 开发的 ChatGPT(6) 的迅速普及,对研发、经济体系和国家安全产生了深远影响。除美国外,其他国家也在本国投入大量人力和计算资源开发 LLM。日本也需要确保用于人工智能研究的计算资源,以免在这场全球竞赛中落后。人们对日本的旗舰超级计算机系统"Fugaku"寄予厚望,因此有必要改善在"Fugaku"上进行大规模分布式培训的计算环境,以满足这些期望。因此,东京工业大学、东北大学、富士通公司、理化学研究所、名古屋大学、CyberAgent 和 Kotoba Technologies 启动了一项关于开发大型语言模型的联合研究项目。各机构/公司的作用东京工业大学:大型语言模型的总体监督、并行化和通信加速(通过三种并行化组合优化通信性能,加速 Tofu 互联 D 上的集体通信)东北大学收集训练数据和选择模型富士通加速计算和通信(加速 Tofu 互联 D 上的集体通信、优化流水线并行化的性能)以及实施预训练和训练后微调理化学研究所:大规模语言模型的分布式并行化和通信加速(Tofu 互联 D 上的集体通信加速)名古屋大学研究 Fugaku-LLM 在 3D 生成式人工智能中的应用方法CyberAgent:提供训练数据Kotoba Technologies:将深度学习框架移植到 Fugaku未来发展这项研究的成果将通过 GitHub 和 Hugging Face 公开,以便其他研究人员和工程师可以利用这些成果进一步开发大型语言模型。只要用户遵守许可协议,Fugaku-LLM 可用于研究和商业目的。从 2024 年 5 月 10 日起,Fugaku-LLM 还将通过富士通研究门户网站提供给用户。未来,随着越来越多的研究人员和工程师参与到模型及其应用的改进中来,训练的效率将得到提高,从而实现下一代创新研究和商业应用,例如科学模拟与生成式人工智能的联系,以及拥有成千上万人工智能的虚拟社区的社会模拟。本研究得到了 Fugaku 政策支持提案"利用 Fugaku 开发大型语言模型的分布式并行训练"(提案号:hp230254)的支持。 ... PC版: 手机版:

封面图片

发现了个好东西,这个老哥开源了一门课程《从头开始构建大型语言模型》,这门课程将一步步地指导你创建自己的LLM。#AI# #llm

发现了个好东西,这个老哥开源了一门课程《从头开始构建大型语言模型》,这门课程将一步步地指导你创建自己的LLM。#AI# #llm# 每个阶段都有清晰的文本、图表和实例来解释相关概念。 课程内容包括: 1. 从基础理解注意力机制 2. 构建并预训练一个类似于GPT的模型 3. 学习如何加载预训练的权重 4. 对模型进行分类任务的微调 5. 使用直接偏好优化进行指令微调模型 课程地址:

封面图片

:一个开源引擎,用于微调和提供大型语言模型的服务,是定制和提供LLM的最简单方式

:一个开源引擎,用于微调和提供大型语言模型的服务,是定制和提供LLM的最简单方式 主要特征 适用于你喜爱的模型的即用型 API:部署和服务开源基础模型 - 包括 LLaMA、MPT 和 Falcon。使用 Scale 托管模型或部署到您自己的基础设施。 微调基础模型:根据您自己的数据微调开源基础模型,以优化性能。 优化推理:LLM Engine 提供推理 API,用于流式响应和动态批处理输入,以实现更高的吞吐量和更低的延迟。 开源集成: 使用单个命令部署任何。 即将推出的功能 K8s 安装文档:我们正在努力记录您自己的基础设施上推理和微调功能的安装和维护。目前,我们的文档涵盖了使用我们的客户端库访问 Scale 的托管基础​​设施。 快速冷启动时间:为了防止 GPU 闲置,LLM Engine 在不使用模型时会自动将模型缩放为零,并在几秒钟内扩展,即使对于大型基础模型也是如此。 成本优化:部署人工智能模型比商业模型更便宜,包括冷启动和预热时间。

封面图片

Meta发布LLM编译器 称将改变我们的编程方式

Meta发布LLM编译器 称将改变我们的编程方式 在将大型语言模型应用于代码和编译器优化方面,LLM 编译器背后的研究人员解决了一个尚未充分探索的重大空白。通过在包含 5460 亿条LLVM-IR和汇编代码的海量语料库上训练模型,他们使模型能够理解编译器中间表示、汇编语言和优化技术。研究人员在论文中解释说:"LLM 编译器增强了对编译器中间表征(IR)、汇编语言和优化技术的理解。这种增强的理解能力使该模型能够执行以前由人类专家或专用工具完成的任务。"LLM 编译器在代码大小优化方面取得了显著成果。在测试中,该模型的优化潜力达到了自动调整搜索的 77%,这一结果可以显著缩短编译时间,提高各种应用的代码效率。事实证明,该模型的反汇编能力更令人印象深刻。在将 x86_64 和 ARM 汇编转换回 LLVM-IR 时,LLM 编译器显示了 45% 的往返反汇编成功率(14% 精确匹配)。这种能力对于逆向工程任务和遗留代码维护来说非常宝贵。了解更多: Cummins)强调了这项技术的潜在影响:他说:"通过提供两种规模(70 亿个参数和 130 亿个参数)的预训练模型,并通过微调版本展示其有效性,LLM 编译器为探索 LLM 在代码和编译器优化领域尚未开发的潜力铺平了道路。"这项技术的影响深远而广泛。软件开发人员可以受益于更快的编译时间、更高效的代码以及用于理解和优化复杂系统的新工具。研究人员获得了探索人工智能驱动的编译器优化的新途径,有可能在软件开发方法上实现突破。特别值得一提的是,Meta 决定以许可商业授权的方式发布 LLM 编译器。此举使学术研究人员和行业从业人员都能利用和改造这项技术,从而有可能加速该领域的创新。然而,如此强大的人工智能模型的发布也引发了人们对软件开发不断变化的格局的质疑。随着人工智能处理复杂编程任务的能力越来越强,它可能会重塑未来软件工程师和编译器设计师所需的技能。LLM 编译器代表的不仅仅是一种渐进式改进,而是我们在处理编译器技术和代码优化方面的根本性转变。通过这一版本,Meta 向学术界和工业界提出了挑战,以推动人工智能辅助编程的发展。随着人工智能驱动的代码优化领域的不断发展,全球开发人员和研究人员如何采用、调整和改进这一开创性技术,将是一个引人入胜的话题。 ... PC版: 手机版:

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人