Meta/Facebook 超大规模 AI/GPU 基础设施设计 |

Meta/Facebook 超大规模 AI/GPU 基础设施设计 | 本文翻译自 2024 年 Meta/Facebook 的一篇文章： Building Meta’s GenAI Infrastructure。作为对未来人工智能的重要投资，Meta 打造了两个大规模 AI 集群，每个集群由 2.4w 张 GPU 组成，本文分享其计算、网络、存储等设计细节。两个 GPU 集群，每个集群 2.4w H100，分别用 RoCE/InfiniBand 网络； LLaMA3 就是在这两个集群上训练出来的；预计到 2024 年底，Meta AI 基础设施建设将拥有 35w 张 H100 GPU，总算力相当于约 60w 张 H100。

在Telegram中查看

相关推荐

Meta 公司当地时间 12 日通过官方新闻稿公布了两座新的数据中心集群，该公司正希望通过英伟达的 GPU，在以 AI 为重点的

Meta 公司当地时间 12 日通过官方新闻稿公布了两座新的数据中心集群，该公司正希望通过英伟达的 GPU，在以 AI 为重点的开发中脱颖而出。据悉，这两座数据中心的唯一目的，是在消费者特定应用领域（包含声音或图像识别）中进行 AI 研究和大语言模型的开发，每个集群都包含了 24576 块英伟达 H100 AI GPU，将用于自家大语言模型 Llama 3 的训练。两座新建的数据中心集群都具有 400Gbps 互联功能，其中一个集群采用了 Meta 基于 Arista 7800 自主开发的 Fabric 解决方案，而另一个集群则采用了英伟达的 Quantum2 InfiniBand Fabric，以确保无缝互连体验。此外，集群基于 Meta 自家的开放式 GPU Grand Teton AI 平台，可通过提高主机到 GPU 的带宽和计算能力，充分利用现代加速器的功能。Meta 官方表示，这些集群的高性能网络结构的效率及关键存储决策、配合每个集群中的 H100 GPU，能够为更大、更复杂的模型提供支持，为通用人工智能产品开发、AI 研究的进步铺路。 Meta 首席执行官扎克伯格1 月表示，预估到今年年底，我们将拥有大约 35 万片英伟达 H100 加速卡，如果算上其它 GPU 的话，其计算能力相当于 60 万片 H100。 via 匿名标签: #Meta #AI 频道: @GodlyNews1 投稿: @GodlyNewsBot

Meta 新建两座数据中心集群：内含超 4.9 万块英伟达 H100 GPU，专门训练 Llama3

Meta 新建两座数据中心集群：内含超 4.9 万块英伟达 H100 GPU，专门训练 Llama3 据悉，这两座数据中心的唯一目的，是在消费者特定应用领域（IT之家注：包含声音或图像识别）中进行 AI 研究和大语言模型的开发，每个集群都包含了 24576 块英伟达 H100 AI GPU，将用于自家大语言模型 Llama 3 的训练。

小扎是真的All in AI了，Meta宣布他们正在开发两个拥有 2.4万 GPU 的超级计算集群。并在24年底使综合计算能力接

小扎是真的All in AI了，Meta宣布他们正在开发两个拥有 2.4万 GPU 的超级计算集群。并在24年底使综合计算能力接近 60万个 H100 GPU。这些超级计算集群将用于支持多种人工智能任务，包括培训 Llama 3 大型人工智能模型。Meta 特别强调，他们致力于开放式计算和开源技术，这些集群基于 Grand Teton、OpenRack 和 PyTorch 等平台构建而成。这些集群设计用于支撑大型和复杂的人工智能模型，着重于提升性能、确保可靠性和扩展能力。 Meta 的策略包括了设计定制化的硬件设备、采用先进的网络解决方案，比如 RDMA over converged Ethernet (RoCE) 和 NVIDIA Quantum2 InfiniBand 网络技术，还有利用 FUSE API 和 Tectonic 分布式存储等技术的优化存储方案。此外，Meta 也在注重通过软件优化和与框架开发者（例如 PyTorch）合作，使其人工智能集群在最大化性能的同时，也易于使用。来源：

Meta两个豪华AI集群曝光：每个配备2.4万块英伟达H100 价值几十亿

Meta两个豪华AI集群曝光：每个配备2.4万块英伟达H100 价值几十亿在硬件配置方面，每个集群都配备了24576个英伟达Tensor Core H100 GPU（每个数万美元），与之前使用的16000个英伟达A100 GPU相比有了明显提升，这将极大地促进自然语言处理、语音识别和图像生成等人工智能研究和开发工作。Meta表示，这种升级不仅在数量上有所增加，其性能上的跃进也将支持更大、更复杂的模型，为生成式人工智能产品的开发铺平道路。Meta计划在2024年底之前，将其人工智能基础设施扩大到高达35万个H100 GPU。目标是拥有相当于近60万个H100 GPU的算力。虽然两个新集群的GPU数量相同，但它们在网络基础设施方面各有差异，均支持400 Gbps端点之间的互联。其中一个集群采用了基于Arista 7800交换机配合Wedge400和Minipack2 OCP机架交换机的远程直接内存访问（RDMA）和融合以太网（RoCE）网络解决方案，而另一个则应用了英伟达Quantum2 InfiniBand网络架构。值得一提的是，两个集群均基于Meta自研的开放GPU硬件平台Grand Teton构建，这是公司为支撑大型AI工作负载而开发的GPU基础硬件平台。作为Zion-EX平台的后续产品，Grand Teton在主机到GPU的带宽、计算及数据网络带宽、以及功率包络等方面都实现了显著的增强。此外，这些集群充分利用了Meta专为Grand Teton等方案设计的Open Rack电源和机架架构，提高了数据中心的灵活性。Meta的Open Rack v3硬件设计引入了一个灵活的机架配置方案。与传统的固定母线设计相比，它允许在机架中的任意位置安装电源架，从而使机架配置更加灵活。在建设这些新集群时，Meta特别关注了每台服务器吞吐量、机架数量减少及能源效率之间的平衡。通过对机架内服务器数量的定制化设计，Meta确保了这些集群在提供高性能的同时，也达到了能源的高效利用。在存储技术上，这些集群运用了Linux Filesystem中的Userspace API，并得到了Meta自家Tectonic分布式存储方案的加持。与此同时，Meta还与Hammerspace合作，一道开发了并行网络文件系统（NFS）。两个集群均基于配备了最新高容量E1.S SSD的YV3 Sierra Point服务器平台。为了优化网络利用率，Meta进行了网络拓扑和路由的调整，并部署了英伟达的集体通信库（NCCL）。NCCL是一套针对英伟达GPU和网络进行优化的标准通信例程库。Meta还在积极推进其PyTorch基础AI框架的发展，以应对数十万GPU的训练需求。Meta的技术项目经理凯文·李（Kevin Lee）、生产网络工程师阿迪·甘吉迪（Adi Gangidi）以及生产工程总监马修·奥尔德姆（Mathew Oldham）在最新博客中共同表达了公司的技术愿景和战略。他们强调，Meta将致力于人工智能软件和硬件的开放式创新，启动人工智能联盟，建立一个开放的生态系统，“为人工智能开发带来透明度、审查和信任，并带来每个人都能从中受益的创新，这些创新以安全和责任为首要考虑因素”。这篇博文继续强调：“面对未来，我们意识到昨天和今天有效的方法可能无法满足明天的需求。因此，Meta将不断评估和改进其基础设施的各个方面，从物理和虚拟层到软件层等。我们的目标是创建一个既灵活又可靠的系统，以支撑快速发展中的新模型和研究工作。” ... PC版：手机版：

Meta号称自研AI芯片为何转身买了英伟达35万个GPU？

Meta号称自研AI芯片为何转身买了英伟达35万个GPU？高调自研的Meta转身狂购英伟达芯片Meta首席科学家杨立昆（Yann LeCun）上个月在旧金山举行的一次活动中强调了GPU对于构建通用人工智能（AGI）的重要性。他说：“如果你认为AGI时代正在到来，你就必须购买更多的GPU。这是一场人工智能战争，而英伟达正在提供武器。”Meta第三季度财报显示，2024财年的总支出将在940亿美元至990亿美元之间，部分原因是在算力方面的扩张。矛盾的是：之前，Meta的打算是自研芯片，不依赖英伟达。2023年，Meta公司首度曾公开其自研芯片的进展，表示开始计划开发一种用于训练人工智能模型的内部芯片，他们将这款新型芯片取名Meta训练和推理加速器，简称MTIA（MTIA v1），将其归类为加速人工智能训练和推理工作负载的“芯片家族”，并定计划于2025年推出。这种定制芯片采用开源芯片架构RISC-V，在类型上属于ASIC专用集成电路。巨头自研芯片不顺利2023年OpenAI 大模型爆火以来，互联网巨头对AI芯片的需求一夜爆发，一时间重金难求一卡。为了避免受制于人，节省费用，各大巨头纷纷宣布自研AI芯片。亚马逊似乎占据了先机，已拥有两款AI专用芯片训练芯片Trainium和推理芯片Inferentia；谷歌则拥有第四代张量处理单元（TPU）。相比之下，微软、Meta等还在很大程度上依赖于英伟达、AMD和英特尔等芯片制造商的现成或定制硬件。报道称，微软一直在秘密研发自己的AI芯片，代号雅典娜（Athena）。该芯片由台积电代工，采用5nm先进制程，计划最早于2024年推出。MTIA的 v1，字面性能也很强，采用台积电7nm制程工艺，运行频率800MHz，TDP仅为25W，INT8整数运算能力为102.4 TOPS，FP16浮点运算能力为51.2 TFLOPS。但从目前的进度上看，微软、Meta的进度并不算快，微软一直在订购英伟达的芯片，Meta此次高调宣布购入35万个H100，也表明，自身研发并不顺利。AI算力竞争是否再次展开据OpenAI测算，从2012年开始，全球AI训练所用的计算量呈现指数增长，平均每3.43个月便会翻一倍。2023年，各巨头对AI芯片的抢购，一度让英伟达H100持续涨价缺货。根据研究机构Raymond James的分析师预测，每个英伟达H100芯片售价为25000至30000美元。按此价格范围计算，Meta在这些芯片上的支出将至少接近百亿美元。Meta为何不吝于成本，斥巨资买入英伟达芯片。扎克伯格在周四的文章中还表示，将把人工智能投资与AR/VR驱动的元宇宙愿景联系起来，并计划推出Llama大型语言模型的下一个版本。从上述表态中可以看出，Meta的自身业务深入发展，需要算力的支持，这是根本原因。对于全球互联网巨头、科技公司来说，2024年的竞争已经开始，新的一轮算力竞争是否就此拉开序幕。 ... PC版：手机版：

Meta将率先使用英伟达最新人工智能芯片

Meta将率先使用英伟达最新人工智能芯片英伟达首席财务官科莱特·克雷斯（Colette Kress）周二告诉金融分析师，“我们将在今年晚些时候上市”，但也表示，新GPU的出货量要到2025年才会增加。而社交媒体巨头 Meta 是英伟达最大的客户之一，此前该公司购买了英伟达公司数十万上一代芯片。Meta 首席执行官马克·扎克伯格在 1 月份就曾透露，该公司计划会在今年年底前将大约 350,000 个早期芯片（称为 H100）储存在库存中。本次Meta社交平台的发言人向外媒公布的最新消息显示，在今年晚些时候，会收到英伟达推出的全新的人工智能芯片，而且还透露，收到的将是英伟达的首批出货。此前，扎克伯格在周一的一份声明中表示，Meta 计划使用 Blackwell 来训练该公司的骆驼模型。该公司目前正在上周宣布的两个GPU集群上训练第三代模型，每个集群包含约24,000个H100 GPU。Meta 发言人表示，Meta 计划继续使用这些集群来训练 Llama 3，并将 Blackwell 用于该模型的未来几代。 ... PC版：手机版：

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人