Meta 公司当地时间 12 日通过官方新闻稿公布了两座新的数据中心集群，该公司正希望通过英伟达的 GPU，在以 AI 为重点的

Meta 公司当地时间 12 日通过官方新闻稿公布了两座新的数据中心集群，该公司正希望通过英伟达的 GPU，在以 AI 为重点的开发中脱颖而出。据悉，这两座数据中心的唯一目的，是在消费者特定应用领域（包含声音或图像识别）中进行 AI 研究和大语言模型的开发，每个集群都包含了 24576 块英伟达 H100 AI GPU，将用于自家大语言模型 Llama 3 的训练。两座新建的数据中心集群都具有 400Gbps 互联功能，其中一个集群采用了 Meta 基于 Arista 7800 自主开发的 Fabric 解决方案，而另一个集群则采用了英伟达的 Quantum2 InfiniBand Fabric，以确保无缝互连体验。此外，集群基于 Meta 自家的开放式 GPU Grand Teton AI 平台，可通过提高主机到 GPU 的带宽和计算能力，充分利用现代加速器的功能。Meta 官方表示，这些集群的高性能网络结构的效率及关键存储决策、配合每个集群中的 H100 GPU，能够为更大、更复杂的模型提供支持，为通用人工智能产品开发、AI 研究的进步铺路。 Meta 首席执行官扎克伯格1 月表示，预估到今年年底，我们将拥有大约 35 万片英伟达 H100 加速卡，如果算上其它 GPU 的话，其计算能力相当于 60 万片 H100。 via 匿名标签: #Meta #AI 频道: @GodlyNews1 投稿: @GodlyNewsBot

在Telegram中查看

相关推荐

Meta 新建两座数据中心集群：内含超 4.9 万块英伟达 H100 GPU，专门训练 Llama3

Meta 新建两座数据中心集群：内含超 4.9 万块英伟达 H100 GPU，专门训练 Llama3 据悉，这两座数据中心的唯一目的，是在消费者特定应用领域（IT之家注：包含声音或图像识别）中进行 AI 研究和大语言模型的开发，每个集群都包含了 24576 块英伟达 H100 AI GPU，将用于自家大语言模型 Llama 3 的训练。

Meta两个豪华AI集群曝光：每个配备2.4万块英伟达H100 价值几十亿

Meta两个豪华AI集群曝光：每个配备2.4万块英伟达H100 价值几十亿在硬件配置方面，每个集群都配备了24576个英伟达Tensor Core H100 GPU（每个数万美元），与之前使用的16000个英伟达A100 GPU相比有了明显提升，这将极大地促进自然语言处理、语音识别和图像生成等人工智能研究和开发工作。Meta表示，这种升级不仅在数量上有所增加，其性能上的跃进也将支持更大、更复杂的模型，为生成式人工智能产品的开发铺平道路。Meta计划在2024年底之前，将其人工智能基础设施扩大到高达35万个H100 GPU。目标是拥有相当于近60万个H100 GPU的算力。虽然两个新集群的GPU数量相同，但它们在网络基础设施方面各有差异，均支持400 Gbps端点之间的互联。其中一个集群采用了基于Arista 7800交换机配合Wedge400和Minipack2 OCP机架交换机的远程直接内存访问（RDMA）和融合以太网（RoCE）网络解决方案，而另一个则应用了英伟达Quantum2 InfiniBand网络架构。值得一提的是，两个集群均基于Meta自研的开放GPU硬件平台Grand Teton构建，这是公司为支撑大型AI工作负载而开发的GPU基础硬件平台。作为Zion-EX平台的后续产品，Grand Teton在主机到GPU的带宽、计算及数据网络带宽、以及功率包络等方面都实现了显著的增强。此外，这些集群充分利用了Meta专为Grand Teton等方案设计的Open Rack电源和机架架构，提高了数据中心的灵活性。Meta的Open Rack v3硬件设计引入了一个灵活的机架配置方案。与传统的固定母线设计相比，它允许在机架中的任意位置安装电源架，从而使机架配置更加灵活。在建设这些新集群时，Meta特别关注了每台服务器吞吐量、机架数量减少及能源效率之间的平衡。通过对机架内服务器数量的定制化设计，Meta确保了这些集群在提供高性能的同时，也达到了能源的高效利用。在存储技术上，这些集群运用了Linux Filesystem中的Userspace API，并得到了Meta自家Tectonic分布式存储方案的加持。与此同时，Meta还与Hammerspace合作，一道开发了并行网络文件系统（NFS）。两个集群均基于配备了最新高容量E1.S SSD的YV3 Sierra Point服务器平台。为了优化网络利用率，Meta进行了网络拓扑和路由的调整，并部署了英伟达的集体通信库（NCCL）。NCCL是一套针对英伟达GPU和网络进行优化的标准通信例程库。Meta还在积极推进其PyTorch基础AI框架的发展，以应对数十万GPU的训练需求。Meta的技术项目经理凯文·李（Kevin Lee）、生产网络工程师阿迪·甘吉迪（Adi Gangidi）以及生产工程总监马修·奥尔德姆（Mathew Oldham）在最新博客中共同表达了公司的技术愿景和战略。他们强调，Meta将致力于人工智能软件和硬件的开放式创新，启动人工智能联盟，建立一个开放的生态系统，“为人工智能开发带来透明度、审查和信任，并带来每个人都能从中受益的创新，这些创新以安全和责任为首要考虑因素”。这篇博文继续强调：“面对未来，我们意识到昨天和今天有效的方法可能无法满足明天的需求。因此，Meta将不断评估和改进其基础设施的各个方面，从物理和虚拟层到软件层等。我们的目标是创建一个既灵活又可靠的系统，以支撑快速发展中的新模型和研究工作。” ... PC版：手机版：

Meta/Facebook 超大规模 AI/GPU 基础设施设计 |

Meta/Facebook 超大规模 AI/GPU 基础设施设计 | 本文翻译自 2024 年 Meta/Facebook 的一篇文章： Building Meta’s GenAI Infrastructure。作为对未来人工智能的重要投资，Meta 打造了两个大规模 AI 集群，每个集群由 2.4w 张 GPU 组成，本文分享其计算、网络、存储等设计细节。两个 GPU 集群，每个集群 2.4w H100，分别用 RoCE/InfiniBand 网络； LLaMA3 就是在这两个集群上训练出来的；预计到 2024 年底，Meta AI 基础设施建设将拥有 35w 张 H100 GPU，总算力相当于约 60w 张 H100。

美国限制向中东地区出口英伟达的 H100 和 A100 GPU

美国限制向中东地区出口英伟达的 H100 和 A100 GPU 美国限制英伟达向中东地区出口的其旗舰 AI 芯片 H100 和 A100 GPU，原因是为了防止这些芯片转售到中国。美国已经限制英伟达向中国出售 H100 和 A100 GPU，英伟达为此专门开发了降低性能的型号 H800 和 A800。中东的阿联酋和沙特都是英伟达的大客户，而这两个国家同时也与中国关系密切，其中沙特还与中国在 AI 项目上展开合作。美国担心英伟达的 H100 和 A100 GPU 可能会从中东国家转手到中国，或者中国会在中东国家训练 AI 模型然后将技术带回中国。来源，频道：@kejiqu 群组：@kejiquchat 投稿：@kejiqubot

Meta将率先使用英伟达最新人工智能芯片

Meta将率先使用英伟达最新人工智能芯片英伟达首席财务官科莱特·克雷斯（Colette Kress）周二告诉金融分析师，“我们将在今年晚些时候上市”，但也表示，新GPU的出货量要到2025年才会增加。而社交媒体巨头 Meta 是英伟达最大的客户之一，此前该公司购买了英伟达公司数十万上一代芯片。Meta 首席执行官马克·扎克伯格在 1 月份就曾透露，该公司计划会在今年年底前将大约 350,000 个早期芯片（称为 H100）储存在库存中。本次Meta社交平台的发言人向外媒公布的最新消息显示，在今年晚些时候，会收到英伟达推出的全新的人工智能芯片，而且还透露，收到的将是英伟达的首批出货。此前，扎克伯格在周一的一份声明中表示，Meta 计划使用 Blackwell 来训练该公司的骆驼模型。该公司目前正在上周宣布的两个GPU集群上训练第三代模型，每个集群包含约24,000个H100 GPU。Meta 发言人表示，Meta 计划继续使用这些集群来训练 Llama 3，并将 Blackwell 用于该模型的未来几代。 ... PC版：手机版：

AI芯片供应问题有所缓解一些公司已开始转售英伟达H100 GPU

AI芯片供应问题有所缓解一些公司已开始转售英伟达H100 GPU 该报道还称，尽管芯片可用性提高，交货期显著缩短，但仍供不应求，尤其是对于那些培训自家大语言模型的公司，如OpenAI。AI处理器短缺的缓解，在一定程度上是由于AWS等云服务提供商让租用英伟达H100 GPU变得更容易。这导致了对AI芯片的需求和等待时间的减少。尽管H100的可用性总体上有所改善，但对于开发自家大语言模型的公司，仍在为供应紧张而苦苦挣扎。这主要是因为它们需要数万乃至数十万个GPU，一些公司在获得所需的处理器或容量方面面临着数月的延误。为此，英伟达H100和其他处理器的价格并没有下降，继续享受着高利润率。英伟达AI处理器可用性的提高也导致了买家行为的转变。一些公司在购买或租赁时变得更加注重价格和选择性，并专注于其业务的经济可行性。此外，再加上替代方案在性能和软件支持方面的不断完善，如AMD或AWS的处理器，市场可能会迎来更加平衡的局面。但不管怎样，当前AI芯片的需求依然强劲。随着大语言模型变得更大，对计算性能的需求也越来越高，这也促使OpenAI CEO山姆·奥特曼（Sam Altman）正试图筹集大量资金，以建造更多的晶圆厂来生产AI处理器。 ... PC版：手机版：

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人