Meta 新建两座数据中心集群：内含超 4.9 万块英伟达 H100 GPU，专门训练 Llama3

Meta公司当地时间12日通过官方新闻稿公布了两座新的数据中心集群，该公司正希望通过英伟达的GPU，在以AI为重点的开发中脱颖而出。据悉，这两座数据中心的唯一目的，是在消费者特定应用领域（包含声音或图像识别）中进行AI研究和大语言模型的开发，每个集群都包含了24576块英伟达H100AIGPU，将用于自家大语言模型Llama3的训练。两座新建的数据中心集群都具有400Gbps互联功能，其中一个集群采用了Meta基于Arista7800自主开发的Fabric解决方案，而另一个集群则采用了英伟达的Quantum2InfiniBandFabric，以确保无缝互连体验。此外，集群基于Meta自家的开放式GPUGrandTetonAI平台，可通过提高主机到GPU的带宽和计算能力，充分利用现代加速器的功能。Meta官方表示，这些集群的高性能网络结构的效率及关键存储决策、配合每个集群中的H100GPU，能够为更大、更复杂的模型提供支持，为通用人工智能产品开发、AI研究的进步铺路。Meta首席执行官扎克伯格1月表示，预估到今年年底，我们将拥有大约35万片英伟达H100加速卡，如果算上其它GPU的话，其计算能力相当于60万片H100。via匿名标签:#Meta#AI频道:@GodlyNews1投稿:@GodlyNewsBot

在Telegram中查看

相关推荐

每个集群都包含了 24576 块英伟达 H100 AI GPU，将用于自家大语言模型 Llama 3 的训练

Meta新建两座数据中心集群：内含超4.9万块英伟达H100GPU，专门训练Llama3https://www.ithome.com/0/755/447.htm据悉，这两座数据中心的唯一目的，是在消费者特定应用领域（IT之家注：包含声音或图像识别）中进行AI研究和大语言模型的开发，每个集群都包含了24576块英伟达H100AIGPU，将用于自家大语言模型Llama3的训练。

特斯拉可能拥有多达十余万片英伟达H100 而xAI也拥有大量高性能GPU储备

特斯拉可能拥有多达十余万片英伟达H100而xAI也拥有大量高性能GPU储备X帐户"技术兄弟"最近发布消息称，马克-扎克伯格的Meta公司目前已拥有全球最大的H100GPU“武器库”之一，数量约为35万个。不过，马斯克对该表格中特斯拉和xAI的排名不以为然，他指出："如果衡量正确的话，特斯拉会排在第二位，X/xAI会排在第三位。"假设其他条件不变，这意味着特斯拉现在拥有3万到35万块英伟达H100GPU。另一方面，xAI现在可能拥有2.6万到3万块英伟达AI计算卡。早在今年1月，埃隆-马斯克（ElonMusk）在确认对特斯拉Dojo超级计算机投资5亿美元（相当于约1万个H100GPU）的同时，还宣布这家电动汽车巨头"今年在英伟达硬件上的花费将超过这个数字"，因为"在人工智能领域具有竞争力的赌注目前每年至少有几十亿美元"。在马斯克从DeepMind、OpenAI、Google研究院、微软研究院、特斯拉和多伦多大学聘请人才，从头开始建立自己的人工智能企业时，xAI曾在2023年购买了大约1万台英伟达的GPU。不过，可以合理推断，这些采购很可能与A100GPU有关。此后，从马斯克最新发布的X帖子中可以推断，xAI似乎还积累了大量的H100GPU。当然，考虑到人工智能领域的创新速度，这些H100GPU很快就会过时。早在今年3月，英伟达就发布了GB200GraceBlackwell超级芯片，将一个基于Arms的GraceCPU与两个BlackwellB100GPU结合在一起。该系统可以部署一个包含27万亿个参数的人工智能模型，在执行聊天机器人提供答案等任务时，速度有望提高30倍。...PC版：https://www.cnbeta.com.tw/articles/soft/1426690.htm手机版：https://m.cnbeta.com.tw/view/1426690.htm

微软推出 ND H100 v5 虚拟机：采用英伟达 H100 GPU，满足企业 ChatGPT 生成式 AI 需求

微软推出NDH100v5虚拟机：采用英伟达H100GPU，满足企业ChatGPT生成式AI需求微软于今天宣布加强和英伟达的合作，将GPU从此前的A100升级到H100，推出专门针对人工智能开发的全新的虚拟机。微软表示该虚拟机主要面向需要整合或开发人工智能的企业，配置如下：▪8块英伟达H100TensorCoreGPU，通过下一代NVSwitch和NVLink4.0互连▪在非阻塞（non-blocking）的胖树（Fat-Tree）架构网络下，每块GPU的NVIDIAQuantum-2CX7InfiniBand性能可以达到400Gb/s，每台虚拟机可以达到3.2Tb/s。▪通过NVSwitch和NVLink4.0，每台虚拟机内的8个本地GPU之间的对分带宽为3.6TB/s。▪采用英特尔第4代XeonScalable处理器▪使用PCIeGen5连接GPU，每个GPU带宽为64GB/s▪16通道4800MHzDDR5DIMM微软先前在AzureOpenAI服务中宣布了ChatGPT相关服务，而本次虚拟机是该服务的补充，它允许第三方通过Azure访问聊天机器人技术。来自：雷锋频道：@kejiqu群组：@kejiquchat投稿：@kejiqubot

英伟达计划提高2024年H100 产量至少两倍需先克服产能瓶颈

英伟达计划提高2024年H100产量至少两倍需先克服产能瓶颈英伟达CUDA架构专为AI和HPC工作负载订制，因此有数百种应用程式只能在英伟达运算GPU运行。虽然亚马逊和Google都有订制AI处理器，AI训练和推理用，但仍必须购买大量英伟达GPU。然而，想增加英伟达H100、GH200GraceHopper及基础产品供应并不容易，英伟达想增加GH100产能，必须先摆脱几个瓶颈。首先，GH100很难大量生产。虽然现在产品产量已相当高，但仍需从台积电取得大量4N晶圆供应，才能让GH100产量提高两倍以上。若要制造200万颗芯片，需3.1万片晶圆，台积电5纳米晶圆总产能每月约15万片，且产能还须由英伟达、AMD、苹果等共享。再来，GH100依赖HBM2E或HBM3记忆体，并使用台积电CoWoS封装，英伟达也需确保供应正常，台积电也在努力满足CoWoS封装需求；第三，基于H100设备使用HBM2E、HBM3或HBM3E存储器，英伟达必须从美光、三星和SK海力士等公司购入足够HBM存储器。最后是英伟达H100显卡或SXM模组必须安装在某个地方，英伟达必须确保合作伙伴的AI服务器也有两到三倍输出。如果英伟达能满足全部H100GPU需求，明年营收会相当可观。...PC版：https://www.cnbeta.com.tw/articles/soft/1379565.htm手机版：https://m.cnbeta.com.tw/view/1379565.htm

Omdia：英伟达Q3卖了50万块AI GPU Meta是最大客户

Omdia：英伟达Q3卖了50万块AIGPUMeta是最大客户市场跟踪公司Omdia表示，Nvidia售出了近50万个A100和H100GPU，庞大的需求量也导致了，基于H100的服务器需要36~52周的时间才能交付。Meta和微软是最大买家。它们各自采购了多达15万个H100GPU，大大超过了谷歌、亚马逊、甲骨文和腾讯采购的数量（各5万个）。值得注意的是，大多数服务器GPU都供应给了超大规模云服务提供商。而服务器原始设备制造商（如戴尔、联想、HPE）目前还无法获得足够的AI和HPCGPU。Omdia预计，到2023年第四季度，Nvidia的H100和A100GPU的销量将超过50万台。不过，几乎所有大量采购NvidiaH100GPU的公司都在为人工智能、HPC和视频工作负载开发定制自己的芯片。因此，随着他们转向使用自己的芯片，对Nvidia硬件的采购量可能会逐渐减少。...PC版：https://www.cnbeta.com.tw/articles/soft/1401777.htm手机版：https://m.cnbeta.com.tw/view/1401777.htm

Meta/Facebook 超大规模 AI/GPU 基础设施设计 | blog

Meta/Facebook超大规模AI/GPU基础设施设计本文翻译自2024年Meta/Facebook的一篇文章：BuildingMeta’sGenAIInfrastructure。作为对未来人工智能的重要投资，Meta打造了两个大规模AI集群，每个集群由2.4w张GPU组成，本文分享其计算、网络、存储等设计细节。两个GPU集群，每个集群2.4wH100，分别用RoCE/InfiniBand网络；LLaMA3就是在这两个集群上训练出来的；预计到2024年底，MetaAI基础设施建设将拥有35w张H100GPU，总算力相当于约60w张H100。

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人