Meta/Facebook 超大规模 AI/GPU 基础设施设计 | blog
Meta/Facebook超大规模AI/GPU基础设施设计本文翻译自2024年Meta/Facebook的一篇文章:BuildingMeta’sGenAIInfrastructure。作为对未来人工智能的重要投资,Meta打造了两个大规模AI集群,每个集群由2.4w张GPU组成,本文分享其计算、网络、存储等设计细节。两个GPU集群,每个集群2.4wH100,分别用RoCE/InfiniBand网络;LLaMA3就是在这两个集群上训练出来的;预计到2024年底,MetaAI基础设施建设将拥有35w张H100GPU,总算力相当于约60w张H100。