每个集群都包含了 24576 块英伟达 H100 AI GPU,将用于自家大语言模型 Llama 3 的训练

Meta新建两座数据中心集群:内含超4.9万块英伟达H100GPU,专门训练Llama3https://www.ithome.com/0/755/447.htm据悉,这两座数据中心的唯一目的,是在消费者特定应用领域(IT之家注:包含声音或图像识别)中进行AI研究和大语言模型的开发,每个集群都包含了24576块英伟达H100AIGPU,将用于自家大语言模型Llama3的训练。

相关推荐

封面图片

Meta 新建两座数据中心集群:内含超 4.9 万块英伟达 H100 GPU,专门训练 Llama3

Meta公司当地时间12日通过官方新闻稿公布了两座新的数据中心集群,该公司正希望通过英伟达的GPU,在以AI为重点的开发中脱颖而出。据悉,这两座数据中心的唯一目的,是在消费者特定应用领域(包含声音或图像识别)中进行AI研究和大语言模型的开发,每个集群都包含了24576块英伟达H100AIGPU,将用于自家大语言模型Llama3的训练。两座新建的数据中心集群都具有400Gbps互联功能,其中一个集群采用了Meta基于Arista7800自主开发的Fabric解决方案,而另一个集群则采用了英伟达的Quantum2InfiniBandFabric,以确保无缝互连体验。此外,集群基于Meta自家的开放式GPUGrandTetonAI平台,可通过提高主机到GPU的带宽和计算能力,充分利用现代加速器的功能。Meta官方表示,这些集群的高性能网络结构的效率及关键存储决策、配合每个集群中的H100GPU,能够为更大、更复杂的模型提供支持,为通用人工智能产品开发、AI研究的进步铺路。Meta首席执行官扎克伯格1月表示,预估到今年年底,我们将拥有大约35万片英伟达H100加速卡,如果算上其它GPU的话,其计算能力相当于60万片H100。via匿名标签:#Meta#AI频道:@GodlyNews1投稿:@GodlyNewsBot

封面图片

Meta 发布 Llama 3 —— 迄今最强大的公开语言模型

Meta发布Llama3——迄今最强大的公开语言模型Llama3的8B和70B型号拥有8K上下文窗口,经过15Ttokens预训练,训练数据比Llama2大了七倍,并且包含四倍多的代码。其中Llama3-8B的性能就已优于Llama2-70B。人类择优测试中Llama3-70B远胜于Claude3Sonnet、MistralMedium和GPT-3.5。Llama3的多模态和更大的版本将在数月内推出,其中最为强大的Llama3-400B+仍在训练中,三天前的基准测试结果已经持平Claude3Opus超过GeminiPro1.5,仅数学落后最先进的GPT-4-2024-04-09。线索:@ZaiHuabot投稿:@TNSubmbot频道:@TestFlightCN

封面图片

中文LLaMA-2 & Alpaca-2大语言模型 (Chinese LLaMA-2 & Alpaca-2 LLMs)

中文LLaMA-2&Alpaca-2大语言模型()本项目基于Meta发布的可商用大模型Llama-2开发,是中文LLaMA&Alpaca大模型的第二期项目,开源了中文LLaMA-2基座模型和Alpaca-2指令精调大模型。这些模型在原版Llama-2的基础上扩充并优化了中文词表,使用了大规模中文数据进行增量预训练,进一步提升了中文基础语义和指令理解能力,相比一代相关模型获得了显著性能提升。相关模型支持4K上下文并可通过NTK方法最高扩展至18K+。本项目主要内容:针对Llama-2模型增加了新版中文词表,开源了中文LLaMA-2和Alpaca-2大模型了预训练脚本、开源指令精调脚本,用户可根据需要进一步训练模型使用个人电脑的CPU/GPU在本地快速进行大模型仿真和部署体验支持Transformers,llama.cpp,text-Generation-webui,LangChain,vLLM等LLaMA生态目前已开源的模型:Chinese-LLaMA-2-7B,Chinese-Alpaca-2-7B

封面图片

摩尔线程国产GPU千卡集群完成30亿参数大模型实训

摩尔线程国产GPU千卡集群完成30亿参数大模型实训本次实训充分验证了夸娥千卡智算集群在大模型训练场景下的可靠性,同时也在行业内率先开启了国产大语言模型与国产GPU千卡智算集群深度合作的新范式。据悉,这次的MT-infini-3B模型训练总共用时13.2天,全程稳定无中断,集群训练稳定性达到100%,千卡训练和单机相比扩展效率超过90%。目前,实训出来的MT-infini-3B性能在同规模模型中跻身前列,相比在国际主流硬件上(尤其是NVIDIA)训练而成的其他模型,在C-Eval、MMLU、CMMLU等3个测试集上均实现性能领先。无问芯穹正在打造“M种模型”和“N种芯片”之间的“MxN”中间层产品,实现多种大模型算法在多元芯片上的高效、统一部署,已与摩尔线程达成深度战略合作。摩尔线程是第一家接入无问芯穹并进行千卡级别大模型训练的国产GPU公司,夸娥千卡集群已与无穹Infini-AI顺利完成系统级融合适配,完成LLama2700亿参数大模型的训练测试。T-infini-3B的训练,则是行业内首次实现基于国产GPU芯片从0到1的端到端大模型实训案例。就在日前,基于摩尔线程的夸娥千卡集群,憨猴集团也成功完成了7B、34B、70B不同参数量级的大模型分布式训练,双方还达成战略合作。经双方共同严苛测试,兼容适配程度高,训练效率达到预期,精度符合要求,整个训练过程持续稳定。...PC版:https://www.cnbeta.com.tw/articles/soft/1432478.htm手机版:https://m.cnbeta.com.tw/view/1432478.htm

封面图片

Meta 正开发更强大的新大型语言模型,对标OpenAI 的 GPT-4

Meta正开发更强大的新大型语言模型,对标OpenAI的GPT-4据知情人士透露,Meta正在开发一款新的大型语言模型,并预计其功能将与GPT-4一样强大。根据Meta的目标,其新AI模型将比两个月前刚刚发布的名为Llama2的模型强大数倍。这个新AI模型计划明年上线。Meta目前正在搭建这项工作所需的数据中心,并购置更多的H100芯片,这是英伟达用于此类AI训练的最先进制程芯片。其中一些知情人士说,虽然与微软合作在后者的云计算平台Azure上提供Llama2服务,但Meta计划在自己的基础设施上训练这个新模型。——

封面图片

英伟达H100霸榜权威AI性能测试 11分钟搞定基于GPT-3的大模型训练

英伟达H100霸榜权威AI性能测试11分钟搞定基于GPT-3的大模型训练(来源:英伟达、MLCommons)MLPerf是由学术界、实验室和产业组成的人工智能领袖联盟,是目前国际公认的权威AI性能评测基准。Trainingv3.0包含8种不同的负载,包括视觉(影像分类、生物医学影像分割、两种负载的物体侦测)、语言(语音识别、大语言模型、自然语言处理)和推荐系统。简单来说,就是由不同的设备供应商提交完成基准任务所需要的时间。(Trainingv3.0训练基准,来源:MLCommons)在投资者比较关注的“大语言模型”训练测试中,英伟达和GPU云算力平台CoreWeave提交的数据为这项测试设定了残酷的业界标准。在896个英特尔至强8462Y+处理器和3584个英伟达H100芯片的齐心协力下,仅仅花了10.94分钟就完成了基于GPT-3的大语言模型训练任务。除了英伟达外,只有英特尔的产品组合在这个项目上获得评测数据。由96个至强8380处理器和96个HabanaGaudi2AI芯片构建的系统中,完成同样测试的时间为311.94分钟。横向对比,使用768个H100芯片的平台跑完这个测试也只需要45.6分钟。(芯片越多数据越好看,来源:英伟达)对于这个结果,英特尔也表示仍有上升空间。理论上只要堆更多的芯片,运算的结果自然会更快。英特尔AI产品高级主管JordanPlawner对媒体表示,接下来Habana的运算结果将会呈现1.5倍-2倍的提升。Plawner拒绝透露HabanaGaudi2的具体售价,仅表示业界需要第二家厂商提供AI训练芯片,而MLPerf的数据显示英特尔有能力填补这个需求。而在中国投资者更熟悉的BERT-Large模型训练中,英伟达和CoreWeave将数据刷到了极端的0.13分钟,在64卡的情况下,测试数据也达到了0.89分钟。BERT模型中的Transformer结构正是目前主流大模型的基础架构。...PC版:https://www.cnbeta.com.tw/articles/soft/1367739.htm手机版:https://m.cnbeta.com.tw/view/1367739.htm

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人