前两天AK转发的一条关于在大规模GPU集群上训练LLM的推文,原文比AK的评述要精彩得多,建议大家一读。可能是我过于cynica

前两天AK转发的一条关于在大规模GPU集群上训练LLM的推文,原文比AK的评述要精彩得多,建议大家一读。可能是我过于cynical了,原文读起来让我觉得作者(Yi Tay,前Google Brain高级研究员)优越感有点太强,反复讲自己在Google时infra如何稳定,codebase如何优雅,称一切Google体系之外的软硬件生态是“wilderness”,吐槽有点太密了.... 但瑕不掩瑜,这篇文章还是特别真诚地分享了初创公司在租用的GPU集群上训练LLM时(想必是大多数公司的情况)遇到的一些问题,我简单总结了一下: 1、各GPU云算力提供商所提供的算力,质量差异之巨大,已经可以称为“硬件盲盒”了(hardware lottery),你完全无法预测自己租用的GPU集群的算力质量和运行情况; 2、作者亲身经历过各种质量的集群,从虽然有点毛病但总体上修修补补能持续跑,到每隔几个小时就宕机完全不能用的都有; 3、主要的问题不在单卡,而是不同云算力提供商组织单卡的方式(cabling)、I/O、文件系统等方面,有些集训甚至需要你自己重新写一个软件层才能跑起来; 4、云算力服务商提供服务质量不一,交付周期无法控制,客服水平和态度也是有好有坏,有的甚至会误删你的checkpoints....; 5、不同的集群Model Flop Utilisation (MFU) 表现不一致,且差异不可忽略,导致集群的理论算力利用不充分。 挺接地气的一篇文章,相信不少创业的小伙伴也或多或少遇到过相同的问题。希望能看到国内团队的类似经验分享,大家看了能少走弯路。此外,我很好奇的是,如果美国startups所面对的商用cluster市场都是如此的话,我们国内的各种“超算中心”、“大规模人工智能计算集群”的实际服务质量和MFU又是如何呢?国资委一纸令下,国央企已经开始动起来要大干快上建设算力了,这些算力,未来又将会是何种结果呢? 原文链接: Image generated by Dall-E

相关推荐

封面图片

摩尔线程千卡GPU集群完成700亿参数大模型训练

摩尔线程千卡GPU集群完成700亿参数大模型训练 访问:NordVPN 立减 75% + 外加 3 个月时长 另有NordPass密码管理器 这充分验证了夸娥智算集群作为国产全功能GPU千卡千亿大模型预训练平台,在稳定性、高效能、易用性和高算力利用率的先进性。这也是憨猴集团首次使用国产AI算力完成大模型训练测试,后续可为其服务的国有企业与运营商等关键领域,提供更加坚实可靠的国产AI训练平台,以及成本效益更优的国产算力解决方案。同时,摩尔线程与憨猴集团签署了战略合作协议。双方将聚焦AI大模型和算力领域,通过摩尔线程夸娥千卡智算集群与憨猴集团AI智算产品及数字化解决方案的深度融合,共同探索国产AI算力的新应用场景与落地实践,加速数智化产业的全面升级。在此之前,摩尔线程已成为第一家接入无问芯穹,并成功完成千卡级别大模型训练的国产GPU公司,夸娥千卡集群与无穹Infini-AI顺利完成了系统级融合适配,并完成了LLama2 700亿参数大模型的训练测试。“夸娥”集群基于双路八卡GPU服务器MCCX D800,每个节点有八块MTT S4000 GPU加速卡、两颗Intel第四代至强处理器、16 x 64GB内存、4 x 3.84TB NVMe SSD,以及双路400Gb IB、四路25Gb以太网网络,一体化交付解决大规模GPU算力的建设和运营管理问题。夸娥氏是我国神话传说中的大力神,出自《愚公移山》:“帝感其诚,命夸娥氏二子负二山,一厝朔东,一厝雍南。自此,冀之南,汉之阴,无陇断焉。” ... PC版: 手机版:

封面图片

Meta/Facebook 超大规模 AI/GPU 基础设施设计 |

Meta/Facebook 超大规模 AI/GPU 基础设施设计 | 本文翻译自 2024 年 Meta/Facebook 的一篇文章: Building Meta’s GenAI Infrastructure。作为对未来人工智能的重要投资,Meta 打造了两个大规模 AI 集群,每个集群由 2.4w 张 GPU 组成, 本文分享其计算、网络、存储等设计细节。 两个 GPU 集群,每个集群 2.4w H100,分别用 RoCE/InfiniBand 网络; LLaMA3 就是在这两个集群上训练出来的; 预计到 2024 年底,Meta AI 基础设施建设将拥有 35w 张 H100 GPU,总算力相当于约 60w 张 H100。

封面图片

摩尔线程升级智算集群解决方案,万卡集群成 AI 主战场标配

摩尔线程升级智算集群解决方案,万卡集群成 AI 主战场标配 7 月 3 日,芯片设计公司摩尔线程宣布其 AI 旗舰产品夸娥(KUAE)智算集群解决方案实现重大升级,从当前的千卡级别大幅扩展至万卡规模。摩尔线程是国内明星初创企业之一,其核心产品是图形处理器(GPU)。随着大模型参数越来越多,对算力的需求越来越高,GPU 成为当前市场备受追捧的产品。摩尔线程创始人兼 CEO 张建中表示,在多元趋势下,万卡已是 AI 模型训练主战场的标配。随着计算量不断攀升,大模型训练亟需超级工厂,即一个 “大且通用” 的加速计算平台,以缩短训练时间,实现模型能力的快速迭代。当前,国际科技巨头都在通过积极部署千卡乃至超万卡规模的计算集群,以确保大模型产品的竞争力。随着模型参数量从千亿迈向万亿,模型能力更加泛化,大模型对底层算力的诉求进一步升级,万卡甚至超万卡集群成为这一轮大模型竞赛的入场券。(中国日报)

封面图片

摩尔线程国产GPU千卡集群完成30亿参数大模型实训

摩尔线程国产GPU千卡集群完成30亿参数大模型实训 本次实训充分验证了夸娥千卡智算集群在大模型训练场景下的可靠性,同时也在行业内率先开启了国产大语言模型与国产GPU千卡智算集群深度合作的新范式。据悉,这次的MT-infini-3B模型训练总共用时13.2天,全程稳定无中断,集群训练稳定性达到100%,千卡训练和单机相比扩展效率超过90%。目前,实训出来的MT-infini-3B性能在同规模模型中跻身前列,相比在国际主流硬件上(尤其是NVIDIA)训练而成的其他模型,在C-Eval、MMLU、CMMLU等3个测试集上均实现性能领先。无问芯穹正在打造“M种模型”和“N种芯片”之间的“M x N”中间层产品,实现多种大模型算法在多元芯片上的高效、统一部署,已与摩尔线程达成深度战略合作。摩尔线程是第一家接入无问芯穹并进行千卡级别大模型训练的国产GPU公司,夸娥千卡集群已与无穹Infini-AI顺利完成系统级融合适配,完成LLama2 700亿参数大模型的训练测试。T-infini-3B的训练,则是行业内首次实现基于国产GPU芯片从0到1的端到端大模型实训案例。就在日前,基于摩尔线程的夸娥千卡集群,憨猴集团也成功完成了7B、34B、70B不同参数量级的大模型分布式训练,双方还达成战略合作。经双方共同严苛测试,兼容适配程度高,训练效率达到预期,精度符合要求,整个训练过程持续稳定。 ... PC版: 手机版:

封面图片

埃隆·马斯克透露计划制造世界上"最强大"的10万级NVIDIA GPU AI集群

埃隆·马斯克透露计划制造世界上"最强大"的10万级NVIDIA GPU AI集群 根据马斯克的说法,在与甲骨文公司分道扬镳以加快人工智能开发进度之后,xAI 已经决定只依靠自己来建立"世界上最强大的训练集群"。甲骨文向xAI提供了2.4万个英伟达Hopper GPU,用于训练Grok 2人工智能模型,马斯克透露,该模型将于8月发布。马斯克分享了xAI的10万GPU集群的最新细节,以回应一份媒体报道,该报道概述了这家人工智能公司与甲骨文公司就扩大现有协议的谈判已经结束。根据目前的协议,xAI 使用 2.4 万个英伟达的 H100 GPU 来训练 Grok 2 人工智能模型。据外媒报道,甲骨文公司也正在与微软合作,为其提供由 10 万个英伟达 Blackwell GB200 芯片组成的集群,这些芯片是市场上最新的人工智能处理器。马斯克分享说,xAI 正在内部构建其 10 万 GPU 人工智能系统,以实现"最快的完成时间"。他认为,这是"追赶"其他人工智能公司的必要条件,因为他认为,"比其他任何人工智能公司都快"对于xAI的"基本竞争力"非常重要。马斯克在上月初的声明中透露,xAI 计划利用英伟达公司的 Blackwell 芯片打造一个价值数十亿美元的系统。他概述说,该系统将使用大约 30 万个 B200 GPU。结合英伟达公司首席执行官黄仁勋分享的价格细节,该系统的成本可能高达 90 亿美元。马斯克认为,通过构建 H100 系统而不是与甲骨文公司合作,xAI 可以实现"最快的完成时间"。这位高管认为,该系统将于本月开始训练,并将成为"世界上功能最强大的训练集群"。在 Grok 或 ChatGPT 等模型准备好响应查询之前,它们需要在现有数据集上接受训练。这些数据集使它们能够根据已经学到的知识,从数学角度预测对用户问题的回复内容。当人工智能行业的主要参与者在 2024 年升级并推出新模型时,xAI 在这方面一直相对沉默。现在,马斯克透露,Grok 2 将于下月推出,因为该模型的大部分开发工作已经完成,xAI 正在进行最后的调整和错误修正。人工智能芯片炙手可热,并在不到一年的时间里推动英伟达成为全球第三大最有价值的公司。Facebook 的母公司 Meta 分享了其计划,即在 2024 年底之前积累 35 万个这样的芯片,以配合其人工智能平台。Meta、Google母公司 Alphabet、微软支持的 ChatGPT 和亚马逊的 Anthropic 都是世界领先的人工智能软件公司。 ... PC版: 手机版:

封面图片

【Hut 8 CEO:把现在的比特币矿场转换成GPU集群的想法是天真的】

【Hut 8 CEO:把现在的比特币矿场转换成GPU集群的想法是天真的】 彭博社发文称,转向AI云服务的加密货币商可能面临一场艰苦的战斗。加密矿企Hut 8 Mining Corp表示,第一季度 HPC 的毛利率是比特币挖矿毛利率的两倍多,分别为 47% 和 17%。但这还没有考虑到 Hut 8 为启动和运行其数据中心所做的初始投资。该公司于 2022 年 1 月以 3000 万加元的价格收购了 TeraGo Inc. 的云和托管业务。 Hut 8 首席执行官 Jaime Leverton 在接受彭博社采访时表示,可以把现在的比特币矿场转换成GPU集群的想法是天真的,因为从环境、冷却角度以及最终终端客户对正常运行时间和延迟的期望来看,基于GPU的计算需求是根本不同的。 加密货币挖矿服务公司 Luxor Technologies 的首席运营官 Ethan Vera 表示,只有在基于 GPU 的挖矿方面拥有经验的最大矿工才能进行此类投资。他说,他们将与更成熟的云服务提供商竞争,这些提供商也希望吸引 AI 客户。

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人