Meta 新建两座数据中心集群:内含超 4.9 万块英伟达 H100 GPU,专门训练 Llama3

Meta公司当地时间12日通过官方新闻稿公布了两座新的数据中心集群,该公司正希望通过英伟达的GPU,在以AI为重点的开发中脱颖而出。据悉,这两座数据中心的唯一目的,是在消费者特定应用领域(包含声音或图像识别)中进行AI研究和大语言模型的开发,每个集群都包含了24576块英伟达H100AIGPU,将用于自家大语言模型Llama3的训练。两座新建的数据中心集群都具有400Gbps互联功能,其中一个集群采用了Meta基于Arista7800自主开发的Fabric解决方案,而另一个集群则采用了英伟达的Quantum2InfiniBandFabric,以确保无缝互连体验。此外,集群基于Meta自家的开放式GPUGrandTetonAI平台,可通过提高主机到GPU的带宽和计算能力,充分利用现代加速器的功能。Meta官方表示,这些集群的高性能网络结构的效率及关键存储决策、配合每个集群中的H100GPU,能够为更大、更复杂的模型提供支持,为通用人工智能产品开发、AI研究的进步铺路。Meta首席执行官扎克伯格1月表示,预估到今年年底,我们将拥有大约35万片英伟达H100加速卡,如果算上其它GPU的话,其计算能力相当于60万片H100。via匿名标签:#Meta#AI频道:@GodlyNews1投稿:@GodlyNewsBot

相关推荐

封面图片

每个集群都包含了 24576 块英伟达 H100 AI GPU,将用于自家大语言模型 Llama 3 的训练

Meta新建两座数据中心集群:内含超4.9万块英伟达H100GPU,专门训练Llama3https://www.ithome.com/0/755/447.htm据悉,这两座数据中心的唯一目的,是在消费者特定应用领域(IT之家注:包含声音或图像识别)中进行AI研究和大语言模型的开发,每个集群都包含了24576块英伟达H100AIGPU,将用于自家大语言模型Llama3的训练。

封面图片

特斯拉可能拥有多达十余万片英伟达H100 而xAI也拥有大量高性能GPU储备

特斯拉可能拥有多达十余万片英伟达H100而xAI也拥有大量高性能GPU储备X帐户"技术兄弟"最近发布消息称,马克-扎克伯格的Meta公司目前已拥有全球最大的H100GPU“武器库”之一,数量约为35万个。不过,马斯克对该表格中特斯拉和xAI的排名不以为然,他指出:"如果衡量正确的话,特斯拉会排在第二位,X/xAI会排在第三位。"假设其他条件不变,这意味着特斯拉现在拥有3万到35万块英伟达H100GPU。另一方面,xAI现在可能拥有2.6万到3万块英伟达AI计算卡。早在今年1月,埃隆-马斯克(ElonMusk)在确认对特斯拉Dojo超级计算机投资5亿美元(相当于约1万个H100GPU)的同时,还宣布这家电动汽车巨头"今年在英伟达硬件上的花费将超过这个数字",因为"在人工智能领域具有竞争力的赌注目前每年至少有几十亿美元"。在马斯克从DeepMind、OpenAI、Google研究院、微软研究院、特斯拉和多伦多大学聘请人才,从头开始建立自己的人工智能企业时,xAI曾在2023年购买了大约1万台英伟达的GPU。不过,可以合理推断,这些采购很可能与A100GPU有关。此后,从马斯克最新发布的X帖子中可以推断,xAI似乎还积累了大量的H100GPU。当然,考虑到人工智能领域的创新速度,这些H100GPU很快就会过时。早在今年3月,英伟达就发布了GB200GraceBlackwell超级芯片,将一个基于Arms的GraceCPU与两个BlackwellB100GPU结合在一起。该系统可以部署一个包含27万亿个参数的人工智能模型,在执行聊天机器人提供答案等任务时,速度有望提高30倍。...PC版:https://www.cnbeta.com.tw/articles/soft/1426690.htm手机版:https://m.cnbeta.com.tw/view/1426690.htm

封面图片

微软推出 ND H100 v5 虚拟机:采用英伟达 H100 GPU,满足企业 ChatGPT 生成式 AI 需求

微软推出NDH100v5虚拟机:采用英伟达H100GPU,满足企业ChatGPT生成式AI需求微软于今天宣布加强和英伟达的合作,将GPU从此前的A100升级到H100,推出专门针对人工智能开发的全新的虚拟机。微软表示该虚拟机主要面向需要整合或开发人工智能的企业,配置如下:▪8块英伟达H100TensorCoreGPU,通过下一代NVSwitch和NVLink4.0互连▪在非阻塞(non-blocking)的胖树(Fat-Tree)架构网络下,每块GPU的NVIDIAQuantum-2CX7InfiniBand性能可以达到400Gb/s,每台虚拟机可以达到3.2Tb/s。▪通过NVSwitch和NVLink4.0,每台虚拟机内的8个本地GPU之间的对分带宽为3.6TB/s。▪采用英特尔第4代XeonScalable处理器▪使用PCIeGen5连接GPU,每个GPU带宽为64GB/s▪16通道4800MHzDDR5DIMM微软先前在AzureOpenAI服务中宣布了ChatGPT相关服务,而本次虚拟机是该服务的补充,它允许第三方通过Azure访问聊天机器人技术。来自:雷锋频道:@kejiqu群组:@kejiquchat投稿:@kejiqubot

封面图片

英伟达计划提高2024年H100 产量至少两倍 需先克服产能瓶颈

英伟达计划提高2024年H100产量至少两倍需先克服产能瓶颈英伟达CUDA架构专为AI和HPC工作负载订制,因此有数百种应用程式只能在英伟达运算GPU运行。虽然亚马逊和Google都有订制AI处理器,AI训练和推理用,但仍必须购买大量英伟达GPU。然而,想增加英伟达H100、GH200GraceHopper及基础产品供应并不容易,英伟达想增加GH100产能,必须先摆脱几个瓶颈。首先,GH100很难大量生产。虽然现在产品产量已相当高,但仍需从台积电取得大量4N晶圆供应,才能让GH100产量提高两倍以上。若要制造200万颗芯片,需3.1万片晶圆,台积电5纳米晶圆总产能每月约15万片,且产能还须由英伟达、AMD、苹果等共享。再来,GH100依赖HBM2E或HBM3记忆体,并使用台积电CoWoS封装,英伟达也需确保供应正常,台积电也在努力满足CoWoS封装需求;第三,基于H100设备使用HBM2E、HBM3或HBM3E存储器,英伟达必须从美光、三星和SK海力士等公司购入足够HBM存储器。最后是英伟达H100显卡或SXM模组必须安装在某个地方,英伟达必须确保合作伙伴的AI服务器也有两到三倍输出。如果英伟达能满足全部H100GPU需求,明年营收会相当可观。...PC版:https://www.cnbeta.com.tw/articles/soft/1379565.htm手机版:https://m.cnbeta.com.tw/view/1379565.htm

封面图片

Omdia:英伟达Q3卖了50万块AI GPU Meta是最大客户

Omdia:英伟达Q3卖了50万块AIGPUMeta是最大客户市场跟踪公司Omdia表示,Nvidia售出了近50万个A100和H100GPU,庞大的需求量也导致了,基于H100的服务器需要36~52周的时间才能交付。Meta和微软是最大买家。它们各自采购了多达15万个H100GPU,大大超过了谷歌、亚马逊、甲骨文和腾讯采购的数量(各5万个)。值得注意的是,大多数服务器GPU都供应给了超大规模云服务提供商。而服务器原始设备制造商(如戴尔、联想、HPE)目前还无法获得足够的AI和HPCGPU。Omdia预计,到2023年第四季度,Nvidia的H100和A100GPU的销量将超过50万台。不过,几乎所有大量采购NvidiaH100GPU的公司都在为人工智能、HPC和视频工作负载开发定制自己的芯片。因此,随着他们转向使用自己的芯片,对Nvidia硬件的采购量可能会逐渐减少。...PC版:https://www.cnbeta.com.tw/articles/soft/1401777.htm手机版:https://m.cnbeta.com.tw/view/1401777.htm

封面图片

Meta/Facebook 超大规模 AI/GPU 基础设施设计 | blog

Meta/Facebook超大规模AI/GPU基础设施设计本文翻译自2024年Meta/Facebook的一篇文章:BuildingMeta’sGenAIInfrastructure。作为对未来人工智能的重要投资,Meta打造了两个大规模AI集群,每个集群由2.4w张GPU组成,本文分享其计算、网络、存储等设计细节。两个GPU集群,每个集群2.4wH100,分别用RoCE/InfiniBand网络;LLaMA3就是在这两个集群上训练出来的;预计到2024年底,MetaAI基础设施建设将拥有35w张H100GPU,总算力相当于约60w张H100。

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人