Andrej Karpathy 说现在在大公司维护计算集群的时候，随着规模扩大,集群管理更像是生物学而非工程学。

Andrej Karpathy 说现在在大公司维护计算集群的时候，随着规模扩大,集群管理更像是生物学而非工程学。工程师需要像"保姆"一样密切监控训练过程,关注关键指标,一旦出现问题要及时排查,否则会浪费大量计算资源。训练常常因为各种未知原因失败,需要重启尝试。训练大模型考验整个计算系统的容错能力,因此除了考虑性能和成本,还要评估整体服务质量和团队效率。原文翻译：这篇文章精彩地讨论了一个鲜为人知的话题：训练大语言模型（LLM）的难点。在成熟的公司里，有专门的团队负责维护这些计算集群。当规模扩大时，这些集群的管理从传统的工程学转变成更接近生物学的领域，这也是为什么会有专门负责“硬件健康”的团队的原因。训练大型模型的日常可能充满挑战。作为工程师，你需要像“保姆”一样密切监控训练过程。这包括关注运行的关键指标：损失函数的突然升高、数值问题、处理速度、梯度的规范性、策略的熵值等。一旦训练过程出现退化或停滞这种情况经常发生你就得迅速查找错误原因。如果处理不及时，可能导致成千上万的GPU资源闲置。来源：你经常会遇到一些新的、陌生的、令人畏惧的错误，需要紧急求助于同事。最糟糕的情况往往发生在凌晨4点。有时候，问题无法解决，你只能选择停用一些异常的节点，尝试重新开始训练。有时候，训练失败仅仅是因为运气不佳，这时你可能会在启动命令中加入一个while True:循环以期望运气好转。这些问题可能涉及多种原因，从GPU过热导致计算错误，到路由器故障降低网络文件系统的输入输出速度，甚至是数据中心内部因未通报的维护工作而导致的物理连接中断。有时候，问题的根源可能永远成谜。这里还需要特别提到一个重要的参考资料：OPT-175B的日志本。希望未来能有更多类似的资料能够公开。（详见git仓库中的chronicles/OPT175B_Logbook.pdf）总之，大语言模型的训练过程实质上是对一个庞大计算系统整体容错能力的极端考验，这个系统在某种程度上像一个生物实体。因此，在选择计算资源时，除了考虑浮点运算性能（FLOPs）和成本外，还要全面考虑从硬件到软件的整体服务，包括存储、网络和计算能力。更重要的是，考虑维护这些系统的团队是否像《复仇者联盟》那样高效，并思考你是否能与他们建立良好的合作关系。

在Telegram中查看

相关推荐

摩尔线程升级智算集群解决方案，万卡集群成 AI 主战场标配

摩尔线程升级智算集群解决方案，万卡集群成 AI 主战场标配 7 月 3 日，芯片设计公司摩尔线程宣布其 AI 旗舰产品夸娥（KUAE）智算集群解决方案实现重大升级，从当前的千卡级别大幅扩展至万卡规模。摩尔线程是国内明星初创企业之一，其核心产品是图形处理器（GPU）。随着大模型参数越来越多，对算力的需求越来越高，GPU 成为当前市场备受追捧的产品。摩尔线程创始人兼 CEO 张建中表示，在多元趋势下，万卡已是 AI 模型训练主战场的标配。随着计算量不断攀升，大模型训练亟需超级工厂，即一个 “大且通用” 的加速计算平台，以缩短训练时间，实现模型能力的快速迭代。当前，国际科技巨头都在通过积极部署千卡乃至超万卡规模的计算集群，以确保大模型产品的竞争力。随着模型参数量从千亿迈向万亿，模型能力更加泛化，大模型对底层算力的诉求进一步升级，万卡甚至超万卡集群成为这一轮大模型竞赛的入场券。(中国日报)

摩尔线程国产GPU千卡集群完成30亿参数大模型实训

摩尔线程国产GPU千卡集群完成30亿参数大模型实训本次实训充分验证了夸娥千卡智算集群在大模型训练场景下的可靠性，同时也在行业内率先开启了国产大语言模型与国产GPU千卡智算集群深度合作的新范式。据悉，这次的MT-infini-3B模型训练总共用时13.2天，全程稳定无中断，集群训练稳定性达到100％，千卡训练和单机相比扩展效率超过90％。目前，实训出来的MT-infini-3B性能在同规模模型中跻身前列，相比在国际主流硬件上(尤其是NVIDIA)训练而成的其他模型，在C-Eval、MMLU、CMMLU等3个测试集上均实现性能领先。无问芯穹正在打造“M种模型”和“N种芯片”之间的“M x N”中间层产品，实现多种大模型算法在多元芯片上的高效、统一部署，已与摩尔线程达成深度战略合作。摩尔线程是第一家接入无问芯穹并进行千卡级别大模型训练的国产GPU公司，夸娥千卡集群已与无穹Infini-AI顺利完成系统级融合适配，完成LLama2 700亿参数大模型的训练测试。T-infini-3B的训练，则是行业内首次实现基于国产GPU芯片从0到1的端到端大模型实训案例。就在日前，基于摩尔线程的夸娥千卡集群，憨猴集团也成功完成了7B、34B、70B不同参数量级的大模型分布式训练，双方还达成战略合作。经双方共同严苛测试，兼容适配程度高，训练效率达到预期，精度符合要求，整个训练过程持续稳定。 ... PC版：手机版：

自动化分布式深度学习系统，在分布式集群上自动化训练深度学习模型

自动化分布式深度学习系统，在分布式集群上自动化训练深度学习模型 DLRover 自动在分布式集群上训练深度学习模型。它可以帮助模型开发人员专注于模型架构，而无需关心任何工程方面的事情，比如硬件加速、分布式运行等。现在，它为 K8s/Ray 上的深度学习训练作业提供自动化运维。主要特点为 Automatic Resource Optimization自动优化作业资源，提高训练性能和资源利用率。动态数据分片，动态分配训练数据给每个worker而不是平分，更快的worker更多数据。容错，单节点故障转移，无需重新启动整个作业。自动缩放，在节点级别和 CPU/内存级别自动扩展/缩减资源。 |#机器学习

燧原科技与清程极智联合开发面向超万亿参数大模型和超大规模集群的系统软件方案

燧原科技与清程极智联合开发面向超万亿参数大模型和超大规模集群的系统软件方案 7 月 5 日，在上海举办的世界人工智能大会（WAIC）上，燧原科技与人工智能系统软件商清程极智签署战略合作协议，联合开发面向超万亿参数大模型和超大规模集群的高性能系统软件方案。双方的合作致力于共同打造超大规模智算集群的训练方案，以满足基础大模型的预训练、行业大模型的微调和大模型推理部署等不同的应用场景和多元的算力需求。此前，双方已经在技术领域开展了重要合作。其中，基于燧原的新一代人工智能推理加速卡 “燧原 S60” 和清程极智的高性能推理框架 “FastDecode”，共同研发了千亿参数规模大模型的高性能推理平台。

云计算中心周六进行第三阶段系统维护

云计算中心周六进行第三阶段系统维护 #行政公职局为持续完善云计算中心的网络系统运作，行政公职局于本月分阶段开展系统优化工程。继17日完成第二阶段维护工程后，将于24日（星期六）凌晨零时至五时进行第三阶段维护工程。届时一户通网页及手机应用程式、使用一户通帐户技术的部门网站、巴士报站应用程式、数据开放平台，以及寄存在云计算中心的政府部门网站和其电子服务，会间歇性受影响。本次维护工程完成后，有关电子服务随即会恢复正常运作，敬请市民留意...

云计算中心周六进行第二阶段系统维护

云计算中心周六进行第二阶段系统维护 #行政公职局为持续完善云计算中心的网络系统运作，行政公职局于本月分阶段开展系统优化工程。继3日完成首阶段维护工程后，将于17日（星期六）凌晨零时至五时进行第二阶段维护工程。届时一户通网页及手机应用程式、使用一户通帐户技术的部门网站、巴士报站应用程式、数据开放平台，以及寄存在云计算中心的政府部门网站和其电子服务，会间歇性受影响。本次维护工程完成后，有关电子服务随即会恢复正常运作，敬请市民留意。 ...

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人