前两天AK转发的一条关于在大规模GPU集群上训练LLM的推文，原文比AK的评述要精彩得多，建议大家一读。可能是我过于cynica

前两天AK转发的一条关于在大规模GPU集群上训练LLM的推文，原文比AK的评述要精彩得多，建议大家一读。可能是我过于cynical了，原文读起来让我觉得作者（Yi Tay，前Google Brain高级研究员）优越感有点太强，反复讲自己在Google时infra如何稳定，codebase如何优雅，称一切Google体系之外的软硬件生态是“wilderness”，吐槽有点太密了.... 但瑕不掩瑜，这篇文章还是特别真诚地分享了初创公司在租用的GPU集群上训练LLM时（想必是大多数公司的情况）遇到的一些问题，我简单总结了一下： 1、各GPU云算力提供商所提供的算力，质量差异之巨大，已经可以称为“硬件盲盒”了（hardware lottery），你完全无法预测自己租用的GPU集群的算力质量和运行情况； 2、作者亲身经历过各种质量的集群，从虽然有点毛病但总体上修修补补能持续跑，到每隔几个小时就宕机完全不能用的都有； 3、主要的问题不在单卡，而是不同云算力提供商组织单卡的方式（cabling）、I/O、文件系统等方面，有些集训甚至需要你自己重新写一个软件层才能跑起来； 4、云算力服务商提供服务质量不一，交付周期无法控制，客服水平和态度也是有好有坏，有的甚至会误删你的checkpoints....； 5、不同的集群Model Flop Utilisation (MFU) 表现不一致，且差异不可忽略，导致集群的理论算力利用不充分。挺接地气的一篇文章，相信不少创业的小伙伴也或多或少遇到过相同的问题。希望能看到国内团队的类似经验分享，大家看了能少走弯路。此外，我很好奇的是，如果美国startups所面对的商用cluster市场都是如此的话，我们国内的各种“超算中心”、“大规模人工智能计算集群”的实际服务质量和MFU又是如何呢？国资委一纸令下，国央企已经开始动起来要大干快上建设算力了，这些算力，未来又将会是何种结果呢？原文链接： Image generated by Dall-E

在Telegram中查看

相关推荐

摩尔线程千卡GPU集群完成700亿参数大模型训练

摩尔线程千卡GPU集群完成700亿参数大模型训练访问：NordVPN 立减 75% + 外加 3 个月时长另有NordPass密码管理器这充分验证了夸娥智算集群作为国产全功能GPU千卡千亿大模型预训练平台，在稳定性、高效能、易用性和高算力利用率的先进性。这也是憨猴集团首次使用国产AI算力完成大模型训练测试，后续可为其服务的国有企业与运营商等关键领域，提供更加坚实可靠的国产AI训练平台，以及成本效益更优的国产算力解决方案。同时，摩尔线程与憨猴集团签署了战略合作协议。双方将聚焦AI大模型和算力领域，通过摩尔线程夸娥千卡智算集群与憨猴集团AI智算产品及数字化解决方案的深度融合，共同探索国产AI算力的新应用场景与落地实践，加速数智化产业的全面升级。在此之前，摩尔线程已成为第一家接入无问芯穹，并成功完成千卡级别大模型训练的国产GPU公司，夸娥千卡集群与无穹Infini-AI顺利完成了系统级融合适配，并完成了LLama2 700亿参数大模型的训练测试。“夸娥”集群基于双路八卡GPU服务器MCCX D800，每个节点有八块MTT S4000 GPU加速卡、两颗Intel第四代至强处理器、16 x 64GB内存、4 x 3.84TB NVMe SSD，以及双路400Gb IB、四路25Gb以太网网络，一体化交付解决大规模GPU算力的建设和运营管理问题。夸娥氏是我国神话传说中的大力神，出自《愚公移山》：“帝感其诚，命夸娥氏二子负二山，一厝朔东，一厝雍南。自此，冀之南，汉之阴，无陇断焉。” ... PC版：手机版：

Meta/Facebook 超大规模 AI/GPU 基础设施设计 |

Meta/Facebook 超大规模 AI/GPU 基础设施设计 | 本文翻译自 2024 年 Meta/Facebook 的一篇文章： Building Meta’s GenAI Infrastructure。作为对未来人工智能的重要投资，Meta 打造了两个大规模 AI 集群，每个集群由 2.4w 张 GPU 组成，本文分享其计算、网络、存储等设计细节。两个 GPU 集群，每个集群 2.4w H100，分别用 RoCE/InfiniBand 网络； LLaMA3 就是在这两个集群上训练出来的；预计到 2024 年底，Meta AI 基础设施建设将拥有 35w 张 H100 GPU，总算力相当于约 60w 张 H100。

摩尔线程国产GPU千卡集群完成30亿参数大模型实训

摩尔线程国产GPU千卡集群完成30亿参数大模型实训本次实训充分验证了夸娥千卡智算集群在大模型训练场景下的可靠性，同时也在行业内率先开启了国产大语言模型与国产GPU千卡智算集群深度合作的新范式。据悉，这次的MT-infini-3B模型训练总共用时13.2天，全程稳定无中断，集群训练稳定性达到100％，千卡训练和单机相比扩展效率超过90％。目前，实训出来的MT-infini-3B性能在同规模模型中跻身前列，相比在国际主流硬件上(尤其是NVIDIA)训练而成的其他模型，在C-Eval、MMLU、CMMLU等3个测试集上均实现性能领先。无问芯穹正在打造“M种模型”和“N种芯片”之间的“M x N”中间层产品，实现多种大模型算法在多元芯片上的高效、统一部署，已与摩尔线程达成深度战略合作。摩尔线程是第一家接入无问芯穹并进行千卡级别大模型训练的国产GPU公司，夸娥千卡集群已与无穹Infini-AI顺利完成系统级融合适配，完成LLama2 700亿参数大模型的训练测试。T-infini-3B的训练，则是行业内首次实现基于国产GPU芯片从0到1的端到端大模型实训案例。就在日前，基于摩尔线程的夸娥千卡集群，憨猴集团也成功完成了7B、34B、70B不同参数量级的大模型分布式训练，双方还达成战略合作。经双方共同严苛测试，兼容适配程度高，训练效率达到预期，精度符合要求，整个训练过程持续稳定。 ... PC版：手机版：

埃隆·马斯克透露计划制造世界上"最强大"的10万级NVIDIA GPU AI集群

埃隆·马斯克透露计划制造世界上"最强大"的10万级NVIDIA GPU AI集群根据马斯克的说法，在与甲骨文公司分道扬镳以加快人工智能开发进度之后，xAI 已经决定只依靠自己来建立"世界上最强大的训练集群"。甲骨文向xAI提供了2.4万个英伟达Hopper GPU，用于训练Grok 2人工智能模型，马斯克透露，该模型将于8月发布。马斯克分享了xAI的10万GPU集群的最新细节，以回应一份媒体报道，该报道概述了这家人工智能公司与甲骨文公司就扩大现有协议的谈判已经结束。根据目前的协议，xAI 使用 2.4 万个英伟达的 H100 GPU 来训练 Grok 2 人工智能模型。据外媒报道，甲骨文公司也正在与微软合作，为其提供由 10 万个英伟达 Blackwell GB200 芯片组成的集群，这些芯片是市场上最新的人工智能处理器。马斯克分享说，xAI 正在内部构建其 10 万 GPU 人工智能系统，以实现"最快的完成时间"。他认为，这是"追赶"其他人工智能公司的必要条件，因为他认为，"比其他任何人工智能公司都快"对于xAI的"基本竞争力"非常重要。马斯克在上月初的声明中透露，xAI 计划利用英伟达公司的 Blackwell 芯片打造一个价值数十亿美元的系统。他概述说，该系统将使用大约 30 万个 B200 GPU。结合英伟达公司首席执行官黄仁勋分享的价格细节，该系统的成本可能高达 90 亿美元。马斯克认为，通过构建 H100 系统而不是与甲骨文公司合作，xAI 可以实现"最快的完成时间"。这位高管认为，该系统将于本月开始训练，并将成为"世界上功能最强大的训练集群"。在 Grok 或 ChatGPT 等模型准备好响应查询之前，它们需要在现有数据集上接受训练。这些数据集使它们能够根据已经学到的知识，从数学角度预测对用户问题的回复内容。当人工智能行业的主要参与者在 2024 年升级并推出新模型时，xAI 在这方面一直相对沉默。现在，马斯克透露，Grok 2 将于下月推出，因为该模型的大部分开发工作已经完成，xAI 正在进行最后的调整和错误修正。人工智能芯片炙手可热，并在不到一年的时间里推动英伟达成为全球第三大最有价值的公司。Facebook 的母公司 Meta 分享了其计划，即在 2024 年底之前积累 35 万个这样的芯片，以配合其人工智能平台。Meta、Google母公司 Alphabet、微软支持的 ChatGPT 和亚马逊的 Anthropic 都是世界领先的人工智能软件公司。 ... PC版：手机版：

Meta 公司当地时间 12 日通过官方新闻稿公布了两座新的数据中心集群，该公司正希望通过英伟达的 GPU，在以 AI 为重点的

Meta 公司当地时间 12 日通过官方新闻稿公布了两座新的数据中心集群，该公司正希望通过英伟达的 GPU，在以 AI 为重点的开发中脱颖而出。据悉，这两座数据中心的唯一目的，是在消费者特定应用领域（包含声音或图像识别）中进行 AI 研究和大语言模型的开发，每个集群都包含了 24576 块英伟达 H100 AI GPU，将用于自家大语言模型 Llama 3 的训练。两座新建的数据中心集群都具有 400Gbps 互联功能，其中一个集群采用了 Meta 基于 Arista 7800 自主开发的 Fabric 解决方案，而另一个集群则采用了英伟达的 Quantum2 InfiniBand Fabric，以确保无缝互连体验。此外，集群基于 Meta 自家的开放式 GPU Grand Teton AI 平台，可通过提高主机到 GPU 的带宽和计算能力，充分利用现代加速器的功能。Meta 官方表示，这些集群的高性能网络结构的效率及关键存储决策、配合每个集群中的 H100 GPU，能够为更大、更复杂的模型提供支持，为通用人工智能产品开发、AI 研究的进步铺路。 Meta 首席执行官扎克伯格1 月表示，预估到今年年底，我们将拥有大约 35 万片英伟达 H100 加速卡，如果算上其它 GPU 的话，其计算能力相当于 60 万片 H100。 via 匿名标签: #Meta #AI 频道: @GodlyNews1 投稿: @GodlyNewsBot

Hugging Face将投资1000万美元的共享GPU供开发者和研究人员免费使用

Hugging Face将投资1000万美元的共享GPU供开发者和研究人员免费使用访问：NordVPN 立减 75% + 外加 3 个月时长另有NordPass密码管理器 GPU 集群将对外免费使用 (当然也需要申请和批准)，该平台希望能够帮助小型开发者、研究人员或人工智能初创公司对抗阻碍人工智能技术发展的中心化问题。与百度不同，Hugging Face 和大多数公司一样认为开源和开放的人工智能技术可以促进行业的发展，专有的人工智能技术并不是 Hugging Face 设想的未来。所以该公司愿意投资共享 GPU 集群，基于共享使用的原则，所有 GPU 都不会浪费，也就是最终情况可能是 7×24 小时满负荷运行，为开发者和初创公司提供支持。对于小型开发者和人工智能初创公司，想要获得共有平台提供的 GPU 算力并不容易，主要是价格非常昂贵并且可能还需要预付费或按月结算，不像大客户那样甚至可以按年结算。这对开发者来说是个承重的负担，往往训练 AI 模型所花费的 GPU 成本就是天文数字，这显然不利于人工智能行业的发展。Hugging Face 称对于共享 GPU 的使用主要取决于实际使用情况，即如果部分 GPU 的容量没有得到积极利用，则这部分容量可以供其他人使用，因此共享 GPU 集群具有成本效益和能源效率，非常适合在社区范围内使用。为 Hugging Face 提供共享 GPU 集群的是应用托管平台 ZeroGPU，该平台将为 Hugging Face 提供 NVIDIA A100 人工智能加速卡组成的集群，尽管 A100 在性能方面只有 H100 加速卡的 50%，不过毕竟都是共享和免费使用，对开发者来说应该也问题不大。 ... PC版：手机版：

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人