小扎是真的All in AI了,Meta宣布他们正在开发两个拥有 2.4万 GPU 的超级计算集群。并在24年底使综合计算能力接

小扎是真的All in AI了,Meta宣布他们正在开发两个拥有 2.4万 GPU 的超级计算集群。并在24年底使综合计算能力接近 60万个 H100 GPU。 这些超级计算集群将用于支持多种人工智能任务,包括培训 Llama 3 大型人工智能模型。Meta 特别强调,他们致力于开放式计算和开源技术,这些集群基于 Grand Teton、OpenRack 和 PyTorch 等平台构建而成。 这些集群设计用于支撑大型和复杂的人工智能模型,着重于提升性能、确保可靠性和扩展能力。 Meta 的策略包括了设计定制化的硬件设备、采用先进的网络解决方案,比如 RDMA over converged Ethernet (RoCE) 和 NVIDIA Quantum2 InfiniBand 网络技术,还有利用 FUSE API 和 Tectonic 分布式存储等技术的优化存储方案。 此外,Meta 也在注重通过软件优化和与框架开发者(例如 PyTorch)合作,使其人工智能集群在最大化性能的同时,也易于使用。 来源:

相关推荐

封面图片

Meta两个豪华AI集群曝光:每个配备2.4万块英伟达H100 价值几十亿

Meta两个豪华AI集群曝光:每个配备2.4万块英伟达H100 价值几十亿 在硬件配置方面,每个集群都配备了24576个英伟达Tensor Core H100 GPU(每个数万美元),与之前使用的16000个英伟达A100 GPU相比有了明显提升,这将极大地促进自然语言处理、语音识别和图像生成等人工智能研究和开发工作。Meta表示,这种升级不仅在数量上有所增加,其性能上的跃进也将支持更大、更复杂的模型,为生成式人工智能产品的开发铺平道路。Meta计划在2024年底之前,将其人工智能基础设施扩大到高达35万个H100 GPU。目标是拥有相当于近60万个H100 GPU的算力。虽然两个新集群的GPU数量相同,但它们在网络基础设施方面各有差异,均支持400 Gbps端点之间的互联。其中一个集群采用了基于Arista 7800交换机配合Wedge400和Minipack2 OCP机架交换机的远程直接内存访问(RDMA)和融合以太网(RoCE)网络解决方案,而另一个则应用了英伟达Quantum2 InfiniBand网络架构。值得一提的是,两个集群均基于Meta自研的开放GPU硬件平台Grand Teton构建,这是公司为支撑大型AI工作负载而开发的GPU基础硬件平台。作为Zion-EX平台的后续产品,Grand Teton在主机到GPU的带宽、计算及数据网络带宽、以及功率包络等方面都实现了显著的增强。此外,这些集群充分利用了Meta专为Grand Teton等方案设计的Open Rack电源和机架架构,提高了数据中心的灵活性。Meta的Open Rack v3硬件设计引入了一个灵活的机架配置方案。与传统的固定母线设计相比,它允许在机架中的任意位置安装电源架,从而使机架配置更加灵活。在建设这些新集群时,Meta特别关注了每台服务器吞吐量、机架数量减少及能源效率之间的平衡。通过对机架内服务器数量的定制化设计,Meta确保了这些集群在提供高性能的同时,也达到了能源的高效利用。在存储技术上,这些集群运用了Linux Filesystem中的Userspace API,并得到了Meta自家Tectonic分布式存储方案的加持。与此同时,Meta还与Hammerspace合作,一道开发了并行网络文件系统(NFS)。两个集群均基于配备了最新高容量E1.S SSD的YV3 Sierra Point服务器平台。为了优化网络利用率,Meta进行了网络拓扑和路由的调整,并部署了英伟达的集体通信库(NCCL)。NCCL是一套针对英伟达GPU和网络进行优化的标准通信例程库。Meta还在积极推进其PyTorch基础AI框架的发展,以应对数十万GPU的训练需求。Meta的技术项目经理凯文·李(Kevin Lee)、生产网络工程师阿迪·甘吉迪(Adi Gangidi)以及生产工程总监马修·奥尔德姆(Mathew Oldham)在最新博客中共同表达了公司的技术愿景和战略。他们强调,Meta将致力于人工智能软件和硬件的开放式创新,启动人工智能联盟,建立一个开放的生态系统,“为人工智能开发带来透明度、审查和信任,并带来每个人都能从中受益的创新,这些创新以安全和责任为首要考虑因素”。这篇博文继续强调:“面对未来,我们意识到昨天和今天有效的方法可能无法满足明天的需求。因此,Meta将不断评估和改进其基础设施的各个方面,从物理和虚拟层到软件层等。我们的目标是创建一个既灵活又可靠的系统,以支撑快速发展中的新模型和研究工作。” ... PC版: 手机版:

封面图片

Meta/Facebook 超大规模 AI/GPU 基础设施设计 |

Meta/Facebook 超大规模 AI/GPU 基础设施设计 | 本文翻译自 2024 年 Meta/Facebook 的一篇文章: Building Meta’s GenAI Infrastructure。作为对未来人工智能的重要投资,Meta 打造了两个大规模 AI 集群,每个集群由 2.4w 张 GPU 组成, 本文分享其计算、网络、存储等设计细节。 两个 GPU 集群,每个集群 2.4w H100,分别用 RoCE/InfiniBand 网络; LLaMA3 就是在这两个集群上训练出来的; 预计到 2024 年底,Meta AI 基础设施建设将拥有 35w 张 H100 GPU,总算力相当于约 60w 张 H100。

封面图片

Meta 公司当地时间 12 日通过官方新闻稿公布了两座新的数据中心集群,该公司正希望通过英伟达的 GPU,在以 AI 为重点的

Meta 公司当地时间 12 日通过官方新闻稿公布了两座新的数据中心集群,该公司正希望通过英伟达的 GPU,在以 AI 为重点的开发中脱颖而出。据悉,这两座数据中心的唯一目的,是在消费者特定应用领域(包含声音或图像识别)中进行 AI 研究和大语言模型的开发,每个集群都包含了 24576 块英伟达 H100 AI GPU,将用于自家大语言模型 Llama 3 的训练。 两座新建的数据中心集群都具有 400Gbps 互联功能,其中一个集群采用了 Meta 基于 Arista 7800 自主开发的 Fabric 解决方案,而另一个集群则采用了英伟达的 Quantum2 InfiniBand Fabric,以确保无缝互连体验。 此外,集群基于 Meta 自家的开放式 GPU Grand Teton AI 平台,可通过提高主机到 GPU 的带宽和计算能力,充分利用现代加速器的功能。Meta 官方表示,这些集群的高性能网络结构的效率及关键存储决策、配合每个集群中的 H100 GPU,能够为更大、更复杂的模型提供支持,为通用人工智能产品开发、AI 研究的进步铺路。 Meta 首席执行官扎克伯格1 月表示,预估到今年年底,我们将拥有大约 35 万片英伟达 H100 加速卡,如果算上其它 GPU 的话,其计算能力相当于 60 万片 H100。 via 匿名 标签: #Meta #AI 频道: @GodlyNews1 投稿: @GodlyNewsBot

封面图片

AMD将搭建由120万颗GPU驱动的全球最强AI超级计算机

AMD将搭建由120万颗GPU驱动的全球最强AI超级计算机 AMD 数据中心解决方案总经理 Forrest Norrod 在接受The Next Platform 采访时透露,他们收到了客户关于使用 120 万个 GPU 构建人工智能训练集群的真实询问。从这个角度来看,目前的人工智能训练集群通常使用数千个 GPU,通过高速互连连接到多个本地服务器机架上。目前正在考虑的人工智能开发规模是前所未有的。诺罗德说:"正在筹建的一些训练集群确实强大得令人匪夷所思。事实上,目前已知用于训练人工智能模型的最大超级计算机是Frontier,它拥有37888个Radeon GPU,这使得AMD潜在的超级计算机比Frontier强大30倍。"当然,事情没那么简单。即使以目前的功率水平,在创建人工智能训练集群时也有大量隐患需要考虑。人工智能训练需要较低的延迟来提供及时的结果,需要消耗大量的电能,而且必须考虑到硬件故障,即使只有几千个 GPU 也不例外。大多数服务器的利用率在20%左右,并在远程机器上处理数千个小型异步作业。然而,人工智能培训的兴起正在导致服务器结构发生重大变化。为了跟上机器学习模型和算法的发展,人工智能数据中心必须配备专门为这项工作设计的大量计算能力。人工智能训练本质上是一项大型同步作业,需要集群中的每个节点尽可能快地来回传递信息。最有趣的是,这些数据来自 AMD,而 AMD 在 2023 年的数据中心 GPU 出货量中只占不到 2%。而占据另外 98% 市场份额的 NVIDIA 则对客户要求其开发的产品守口如瓶。作为市场领导者,我们只能想象他们正在开发什么。虽然拟议中的 120 万 GPU 超级计算机可能看起来有些离谱,但诺罗德称,"非常清醒的人"正在考虑在人工智能训练集群上花费多达千亿美元。这并不令人震惊,因为在过去几年里,人工智能在科技界的发展可谓突飞猛进。看来,企业已经准备好在人工智能和机器学习上投入巨资,以保持竞争力。 ... PC版: 手机版:

封面图片

云存储平台 Storj 收购云计算公司 Valdi

云存储平台 Storj 收购云计算公司 Valdi 加密云存储平台 Storj 收购了云计算提供商 Valdi,为其企业客户添加图形处理单元 (GPU) 计算。Valdi 网络在全球拥有超过 16,000 个 GPU,提供用于技术、研究和生命科学等行业的人工智能 (AI) 培训的按需处理。 Storj 表示,Valdi 旨在通过允许客户使用世界各地数据中心的可用 GPU 计算周期来解决人工智能市场增长导致的 GPU 短缺问题。

封面图片

埃隆·马斯克透露计划制造世界上"最强大"的10万级NVIDIA GPU AI集群

埃隆·马斯克透露计划制造世界上"最强大"的10万级NVIDIA GPU AI集群 根据马斯克的说法,在与甲骨文公司分道扬镳以加快人工智能开发进度之后,xAI 已经决定只依靠自己来建立"世界上最强大的训练集群"。甲骨文向xAI提供了2.4万个英伟达Hopper GPU,用于训练Grok 2人工智能模型,马斯克透露,该模型将于8月发布。马斯克分享了xAI的10万GPU集群的最新细节,以回应一份媒体报道,该报道概述了这家人工智能公司与甲骨文公司就扩大现有协议的谈判已经结束。根据目前的协议,xAI 使用 2.4 万个英伟达的 H100 GPU 来训练 Grok 2 人工智能模型。据外媒报道,甲骨文公司也正在与微软合作,为其提供由 10 万个英伟达 Blackwell GB200 芯片组成的集群,这些芯片是市场上最新的人工智能处理器。马斯克分享说,xAI 正在内部构建其 10 万 GPU 人工智能系统,以实现"最快的完成时间"。他认为,这是"追赶"其他人工智能公司的必要条件,因为他认为,"比其他任何人工智能公司都快"对于xAI的"基本竞争力"非常重要。马斯克在上月初的声明中透露,xAI 计划利用英伟达公司的 Blackwell 芯片打造一个价值数十亿美元的系统。他概述说,该系统将使用大约 30 万个 B200 GPU。结合英伟达公司首席执行官黄仁勋分享的价格细节,该系统的成本可能高达 90 亿美元。马斯克认为,通过构建 H100 系统而不是与甲骨文公司合作,xAI 可以实现"最快的完成时间"。这位高管认为,该系统将于本月开始训练,并将成为"世界上功能最强大的训练集群"。在 Grok 或 ChatGPT 等模型准备好响应查询之前,它们需要在现有数据集上接受训练。这些数据集使它们能够根据已经学到的知识,从数学角度预测对用户问题的回复内容。当人工智能行业的主要参与者在 2024 年升级并推出新模型时,xAI 在这方面一直相对沉默。现在,马斯克透露,Grok 2 将于下月推出,因为该模型的大部分开发工作已经完成,xAI 正在进行最后的调整和错误修正。人工智能芯片炙手可热,并在不到一年的时间里推动英伟达成为全球第三大最有价值的公司。Facebook 的母公司 Meta 分享了其计划,即在 2024 年底之前积累 35 万个这样的芯片,以配合其人工智能平台。Meta、Google母公司 Alphabet、微软支持的 ChatGPT 和亚马逊的 Anthropic 都是世界领先的人工智能软件公司。 ... PC版: 手机版:

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人