Meta/Facebook 超大规模 AI/GPU 基础设施设计 |
Meta/Facebook 超大规模 AI/GPU 基础设施设计 | 本文翻译自 2024 年 Meta/Facebook 的一篇文章: Building Meta’s GenAI Infrastructure。作为对未来人工智能的重要投资,Meta 打造了两个大规模 AI 集群,每个集群由 2.4w 张 GPU 组成, 本文分享其计算、网络、存储等设计细节。 两个 GPU 集群,每个集群 2.4w H100,分别用 RoCE/InfiniBand 网络; LLaMA3 就是在这两个集群上训练出来的; 预计到 2024 年底,Meta AI 基础设施建设将拥有 35w 张 H100 GPU,总算力相当于约 60w 张 H100。
在Telegram中查看相关推荐

🔍 发送关键词来寻找群组、频道或视频。
启动SOSO机器人