小扎是真的All in AI了,Meta宣布他们正在开发两个拥有 2.4万 GPU 的超级计算集群。并在24年底使综合计算能力接

小扎是真的AllinAI了,Meta宣布他们正在开发两个拥有2.4万GPU的超级计算集群。并在24年底使综合计算能力接近60万个H100GPU。这些超级计算集群将用于支持多种人工智能任务,包括培训Llama3大型人工智能模型。Meta特别强调,他们致力于开放式计算和开源技术,这些集群基于GrandTeton、OpenRack和PyTorch等平台构建而成。这些集群设计用于支撑大型和复杂的人工智能模型,着重于提升性能、确保可靠性和扩展能力。Meta的策略包括了设计定制化的硬件设备、采用先进的网络解决方案,比如RDMAoverconvergedEthernet(RoCE)和NVIDIAQuantum2InfiniBand网络技术,还有利用FUSEAPI和Tectonic分布式存储等技术的优化存储方案。此外,Meta也在注重通过软件优化和与框架开发者(例如PyTorch)合作,使其人工智能集群在最大化性能的同时,也易于使用。来源:

相关推荐

封面图片

Meta 新建两座数据中心集群:内含超 4.9 万块英伟达 H100 GPU,专门训练 Llama3

Meta公司当地时间12日通过官方新闻稿公布了两座新的数据中心集群,该公司正希望通过英伟达的GPU,在以AI为重点的开发中脱颖而出。据悉,这两座数据中心的唯一目的,是在消费者特定应用领域(包含声音或图像识别)中进行AI研究和大语言模型的开发,每个集群都包含了24576块英伟达H100AIGPU,将用于自家大语言模型Llama3的训练。两座新建的数据中心集群都具有400Gbps互联功能,其中一个集群采用了Meta基于Arista7800自主开发的Fabric解决方案,而另一个集群则采用了英伟达的Quantum2InfiniBandFabric,以确保无缝互连体验。此外,集群基于Meta自家的开放式GPUGrandTetonAI平台,可通过提高主机到GPU的带宽和计算能力,充分利用现代加速器的功能。Meta官方表示,这些集群的高性能网络结构的效率及关键存储决策、配合每个集群中的H100GPU,能够为更大、更复杂的模型提供支持,为通用人工智能产品开发、AI研究的进步铺路。Meta首席执行官扎克伯格1月表示,预估到今年年底,我们将拥有大约35万片英伟达H100加速卡,如果算上其它GPU的话,其计算能力相当于60万片H100。via匿名标签:#Meta#AI频道:@GodlyNews1投稿:@GodlyNewsBot

封面图片

Meta/Facebook 超大规模 AI/GPU 基础设施设计 | blog

Meta/Facebook超大规模AI/GPU基础设施设计本文翻译自2024年Meta/Facebook的一篇文章:BuildingMeta’sGenAIInfrastructure。作为对未来人工智能的重要投资,Meta打造了两个大规模AI集群,每个集群由2.4w张GPU组成,本文分享其计算、网络、存储等设计细节。两个GPU集群,每个集群2.4wH100,分别用RoCE/InfiniBand网络;LLaMA3就是在这两个集群上训练出来的;预计到2024年底,MetaAI基础设施建设将拥有35w张H100GPU,总算力相当于约60w张H100。

封面图片

Meta首席科学家:不认为AI超级智能会很快到来 对量子计算持怀疑态度

Meta首席科学家:不认为AI超级智能会很快到来对量子计算持怀疑态度他的观点与英伟达截然相反英伟达首席执行官黄仁勋最近表示,人工智能将在不到五年的时间内与人类“相当有竞争力”,在许多脑力密集型任务上胜过人类。“我认识黄,”勒昆最近在Facebook母公司Meta基础人工智能研究团队成立10周年纪念活动上表示。勒昆说英伟达CEO可以从人工智能热潮中收获良多。“这是一场人工智能‘战争’,他在提供‘武器’。”″(如果)你认为人工智能很流行,你就得买更多的GPU,”勒昆在谈到试图开发人工通用智能的技术人员时说,这种人工智能与人类的智能水平相当。只要OpenAI等公司的研究人员继续追求AGI,他们就需要更多英伟达的计算机芯片。勒昆表示,社会更有可能在人类水平的人工智能出现前几年出现“猫级”或“狗级”的人工智能。科技行业目前对语言模型和文本数据的关注,不足以创造出研究人员几十年来一直梦想的那种先进的类人人工智能系统。“文本是一个非常糟糕的信息来源,”勒昆解释说,人类可能需要2万年才能阅读用于训练现代语言模型的文本量。“用相当于两万年的阅读材料来训练一个系统,它们仍然不明白,如果A和B相同,那么B就和A相同。”“世界上有很多非常基本的东西,他们只是没有通过这种训练,”勒昆说。因此,勒昆和MetaAI的其他高管一直在大力研究如何定制用于创建ChatGPT等应用程序的所谓转换器模型,以处理各种数据,包括音频、图像和视频信息。他们认为,这些人工智能系统越能发现这些不同类型的数据之间可能存在的数十亿个隐藏的相关性,它们就越有可能实现更神奇的壮举。Meta的一些研究包括一种软件,可以帮助人们在戴着该公司的ProjectAria增强现实眼镜时更好地打网球,这种眼镜将数字图形融入现实世界。高管们展示了一个演示,一个戴着AR眼镜打网球的人能够看到视觉提示,教他们如何正确地握住网球拍,并以完美的方式摆动手臂。为这类数字网球助手提供动力所需的人工智能模型,除了文本和音频之外,还需要混合三维视觉数据,以防数字助手需要说话。这些所谓的多模式人工智能系统代表了下一个前沿领域,但它们的发展并不便宜。随着Meta和谷歌母公司Alphabet等越来越多的公司研究更先进的人工智能模型,英伟达可能会获得更大的优势,尤其是在没有其他竞争对手出现的情况下。未来的人工智能硬件英伟达一直是生成式人工智能的最大捐助者,其昂贵的图形处理单元已成为用于训练大规模语言模型的标准工具。Meta依靠16000个NvidiaA100GPU来训练它的LlamaAI软件。有媒体问,随着Meta和其他研究人员继续开发这类复杂的人工智能模型,科技行业是否需要更多的硬件供应商。“它不需要它,但它会很好,”勒昆回答,并补充说GPU技术仍然是人工智能的黄金标准。不过,他说,未来的计算机芯片可能不会被称为GPU。勒昆也对量子计算持怀疑态度,微软、IBM和谷歌等科技巨头都投入了大量资源。Meta之外的许多研究人员认为,量子计算机器可以在数据密集型领域(如药物发现)取得巨大进步,因为它们能够使用所谓的量子比特执行多次计算,而不是现代计算中使用的传统二进制比特。但勒昆对此表示怀疑。“你用量子计算解决的问题数量,你也可以用经典计算机更有效地解决,”勒昆说。“量子计算是一个迷人的科学话题,”勒昆说。目前还不太清楚“实际意义和制造真正有用的量子计算机的可能性”。Meta高级研究员、前技术主管迈克·施罗普夫(MikeSchroepfer)对此表示赞同,他每隔几年就会对量子技术进行评估,并认为有用的量子机器“可能会在某个时候出现,但它的时间跨度太长,与我们正在做的事情无关”。“十年前我们成立人工智能实验室的原因是,很明显,这项技术将在未来几年的时间框架内实现商业化,”施罗普夫说。...PC版:https://www.cnbeta.com.tw/articles/soft/1401667.htm手机版:https://m.cnbeta.com.tw/view/1401667.htm

封面图片

微软聘请前Meta高管以加强AI超级计算团队

微软聘请前Meta高管以加强AI超级计算团队前Meta高管JasonTaylor将加入微软人工智能超级计算团队。微软首席技术官凯文·斯科特22日在领英上发文称,Taylor将担任公司副总裁兼副首席技术官,帮助"构建下一套系统,推动人工智能的前沿发展"。Taylor于2009年至2022年在Meta工作,最近的职务是公司基础设施副总裁。根据他在领英上的个人简介,他负责人工智能、数据和隐私基础设施,并管理公司的服务器预算。Taylor还曾在2015年至2017年期间担任开放计算项目基金会主席,该组织致力于促进数据中心的开源设计。——

封面图片

富士通新技术可优化人工智能和高性能计算工作负载的CPU和GPU分配

富士通新技术可优化人工智能和高性能计算工作负载的CPU和GPU分配富士通开发了两项新技术,旨在优化强大的高性能计算系统上的CPU和GPU工作负载。该公司正致力于实时分配资源,以更好地管理具有高执行效率的进程,同时优化多个程序的并行处理。富士通表示,新解决方案旨在解决生成学习和其他人工智能相关技术的爆炸性需求所导致的全球GPU短缺问题。这些优化技术包括一个"自适应GPU分配器"(AdaptiveGPUAllocator),它似乎可以检测出程序是需要在GPU加速器上执行还是在CPU上执行。分配器是作为一个独立的服务器实现的,旨在测量代码执行性能。如果程序希望在HPC系统中使用GPU,分配器服务器就会批准访问,同时检查GPU和CPU上迷你批处理作业的处理时间。如果GPU批次测试不能充分缩短处理时间,分配器就会继续在CPU上重新分配作业。不幸的是,程序需要专门编写,以便通过专用框架使用新的分配器服务器,富士通公司证实了这一点。另一种优化高性能计算工作负载的解决方案是交互式高性能计算(InteractiveHPC),富士通将其描述为世界上第一种"在高性能计算系统上实时切换多个程序执行"的技术。富士通解释说,传统的控制方法采用单播通信,将程序执行"逐个"切换到每台服务器上。交互式HPC采用广播通信方法,向HPC系统中的每个计算节点发送切换指令。富士通表示,在256节点的高性能计算环境中工作时,新方法似乎足以将进程切换时间从几秒缩短到100毫秒。富士通对新GPU分配技术的计划主要集中在AI平台"Kozuchi"上,该公司的人工智能平台旨在为客户提供测试"先进人工智能技术"的快速方法。这项HPC优化技术还将应用于富士通的40量子位量子计算机模拟器。在计算即服务的高性能计算环境中的进一步应用似乎也在考虑之中。...PC版:https://www.cnbeta.com.tw/articles/soft/1397253.htm手机版:https://m.cnbeta.com.tw/view/1397253.htm

封面图片

特斯拉可能拥有多达十余万片英伟达H100 而xAI也拥有大量高性能GPU储备

特斯拉可能拥有多达十余万片英伟达H100而xAI也拥有大量高性能GPU储备X帐户"技术兄弟"最近发布消息称,马克-扎克伯格的Meta公司目前已拥有全球最大的H100GPU“武器库”之一,数量约为35万个。不过,马斯克对该表格中特斯拉和xAI的排名不以为然,他指出:"如果衡量正确的话,特斯拉会排在第二位,X/xAI会排在第三位。"假设其他条件不变,这意味着特斯拉现在拥有3万到35万块英伟达H100GPU。另一方面,xAI现在可能拥有2.6万到3万块英伟达AI计算卡。早在今年1月,埃隆-马斯克(ElonMusk)在确认对特斯拉Dojo超级计算机投资5亿美元(相当于约1万个H100GPU)的同时,还宣布这家电动汽车巨头"今年在英伟达硬件上的花费将超过这个数字",因为"在人工智能领域具有竞争力的赌注目前每年至少有几十亿美元"。在马斯克从DeepMind、OpenAI、Google研究院、微软研究院、特斯拉和多伦多大学聘请人才,从头开始建立自己的人工智能企业时,xAI曾在2023年购买了大约1万台英伟达的GPU。不过,可以合理推断,这些采购很可能与A100GPU有关。此后,从马斯克最新发布的X帖子中可以推断,xAI似乎还积累了大量的H100GPU。当然,考虑到人工智能领域的创新速度,这些H100GPU很快就会过时。早在今年3月,英伟达就发布了GB200GraceBlackwell超级芯片,将一个基于Arms的GraceCPU与两个BlackwellB100GPU结合在一起。该系统可以部署一个包含27万亿个参数的人工智能模型,在执行聊天机器人提供答案等任务时,速度有望提高30倍。...PC版:https://www.cnbeta.com.tw/articles/soft/1426690.htm手机版:https://m.cnbeta.com.tw/view/1426690.htm

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人