字节发布的这个MegaScale估计只有超级大厂才有用，一个在超过一万个 GPU 上训练 LLM 的生产系统。#ai##llm#

字节发布的这个MegaScale估计只有超级大厂才有用，一个在超过一万个GPU上训练LLM的生产系统。整个系统涵盖了从模型块和优化器设计到计算与通信的重叠、运算符优化、数据管道以及网络性能调整的算法和系统组件。MegaScale在训练一个175B参数的LLM模型时，在12,288GPU上实现了55.2%的模型浮点运算利用率（ModelFLOPsUtilization，MFU），相比Megatron-LM提升了1.34倍。论文地址：

在Telegram中查看

相关推荐

特斯拉已经开始生产Dojo超级计算机训练其自动驾驶车队

特斯拉已经开始生产Dojo超级计算机训练其自动驾驶车队该公司在报告中表示：“我们正在内部开发这些支柱。本月，我们开始生产我们的道场训练计算机，这是向更快更便宜的神经网络训练迈出的一步。”特斯拉已经拥有一个基于英伟达GPU的超级计算机，它是世界上最强大的计算机之一，但新的道场定制计算机使用了特斯拉设计的芯片。2019年，特斯拉首席执行官埃隆·马斯克给这台“超强大的训练计算机”起了一个名字：道场（Dojo）。此前，马斯克曾声称，道场将能够达到每秒一亿亿次（1018）浮点运算。这是一种难以置信的能力。“要想匹配一台每秒可执行一亿亿次浮点运算的计算机系统所能做的事情，你必须每秒进行一次计算，持续31688765000年”，《网络世界》（NetworkWorld）写道。在2021年的特斯拉AI日（AIDay），道场仍然是一个进行中的项目。高管们展示了其第一块芯片和训练模组（trainingtiles），这些模组最终将发展成一个完整的道场集群或“超级节点”。特斯拉表示，它将在一个托盘中组合2x3个模组，并在一个计算机柜中放置两个托盘，每个柜子可提供超过100petaflops（每秒1015次浮点运算）的计算能力。在一个由10个柜子组成的系统中，特斯拉的道场超级节点将突破每秒一亿亿次浮点运算的计算能力。一年后，在2022年的AI日上，特斯拉展示了道场的一些进展，包括拥有一个完整的系统托盘。当时，特斯拉谈到了在2023年初拥有一个完整的集群。不过现在看来，可能要到2024年初才能实现。...PC版：https://www.cnbeta.com.tw/articles/soft/1372013.htm手机版：https://m.cnbeta.com.tw/view/1372013.htm

英伟达 GPU 价格暴涨，供应短缺影响 AI 大模型训练

英伟达GPU价格暴涨，供应短缺影响AI大模型训练作为AI大模型训练的底层架构基石，GPU的价格随之水涨船高。有代理商透露，英伟达的A100价格从2022年12月份开始上涨，截至2023年4月上半月，5个月价格累计涨幅达到37.5%；A800价格从2022年12月份开始上涨，截至2023年4月上半月，5个月价格累计涨幅达20.0%。且交货周期也被拉长，之前拿货周期大约为一个月左右，现在基本都得三个月，甚至更长。据透露，国内可用于训练AI大模型的A100大约有4万-5万个，供应相当吃紧，一些云服务厂商已严格限制内部使用这些先进芯片，以将其保留至需要强力运算的任务。投稿：@ZaiHuaBot频道：@TestFlightCN

Hidet是一个强大的深度学习编译器，可简化在现代加速器（例如 NVIDIA GPU）上实现高性能深度学习运算符的过程。借助 P

Hidet是一个强大的深度学习编译器，可简化在现代加速器（例如NVIDIAGPU）上实现高性能深度学习运算符的过程。借助PyTorch2.0中的新功能torch.compile(...)，将新型编译器集成到PyTorch中比以往任何时候都更容易——Hidet现在可以用作torch.compile(...)加速PyTorch模型的后端，这对于想要提高其推理性能的PyTorch用户来说是一个有吸引力的选择模型，特别是对于那些还需要实施极其优化的自定义运算符的人。#编译器

发现了个好东西，这个老哥开源了一门课程《从头开始构建大型语言模型》，这门课程将一步步地指导你创建自己的LLM。#AI# #llm

发现了个好东西，这个老哥开源了一门课程《从头开始构建大型语言模型》，这门课程将一步步地指导你创建自己的LLM。#AI##llm#每个阶段都有清晰的文本、图表和实例来解释相关概念。课程内容包括：1.从基础理解注意力机制2.构建并预训练一个类似于GPT的模型3.学习如何加载预训练的权重4.对模型进行分类任务的微调5.使用直接偏好优化进行指令微调模型课程地址：https://github.com/rasbt/LLMs-from-scratch/tree/main

【英伟达开源Nemotron-4340B系列模型，用于训练LLM】近日，英伟达开源Nemotron-4340B（3400亿参数）

【英伟达开源Nemotron-4340B系列模型，用于训练LLM】近日，英伟达开源Nemotron-4340B（3400亿参数）系列模型。开发人员可使用该系列模型生成合成数据，用于训练大型语言模型(LLM)，用于医疗保健、金融、制造、零售和其他行业的商业应用。Nemotron-4340B包括基础模型Base、指令模型Instruct和奖励模型Reward。英伟达使用了9万亿个token（文本单位）进行训练。Nemotron-4340B-Base在常识推理任务，如ARC-c、MMLU和BBH基准测试中，可以和Llama-370B、Mixtral8x22B和Qwen-272B模型媲美。

LLM Engine：一个开源引擎，用于微调和提供大型语言模型的服务，是定制和提供LLM的最简单方式

：一个开源引擎，用于微调和提供大型语言模型的服务，是定制和提供LLM的最简单方式主要特征适用于你喜爱的模型的即用型API：部署和服务开源基础模型-包括LLaMA、MPT和Falcon。使用Scale托管模型或部署到您自己的基础设施。微调基础模型：根据您自己的数据微调开源基础模型，以优化性能。优化推理：LLMEngine提供推理API，用于流式响应和动态批处理输入，以实现更高的吞吐量和更低的延迟。开源集成：使用单个命令部署任何。即将推出的功能K8s安装文档：我们正在努力记录您自己的基础设施上推理和微调功能的安装和维护。目前，我们的文档涵盖了使用我们的客户端库访问Scale的托管基础设施。快速冷启动时间：为了防止GPU闲置，LLMEngine在不使用模型时会自动将模型缩放为零，并在几秒钟内扩展，即使对于大型基础模型也是如此。成本优化：部署人工智能模型比商业模型更便宜，包括冷启动和预热时间。

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人