Intel Gaudi 3 AI加速器可以卖给中国 但挥刀砍掉一半

IntelGaudi3AI加速器可以卖给中国但挥刀砍掉一半Intel声称,它相比上代拥有2倍的FP8AI算力、4倍的BF16AI算力、2倍的网络功耗为600W带宽、1.5倍的内存带宽,而对比NVIDIAH100LLM推理性能领先50%、训练时间快40%。Gaudi3的首发版本编号HL-325L,OAM形态,已经出货,功耗900W,风冷散热。它的中国特供版将在6月份推出,编号HL-328,功耗减半至450W,HMB内存、缓存、解码器等完全保留,但既然功耗少了一半,算力差不多也会被腰斩。10月份还会有个液冷版本HL-335,支持双路并联,但不能卖给中国,也没有特供版。PCIe扩展卡形态将在9月份出货,风冷,满血版编号HL-338,,中国特供版编号HL-388,功耗又被限制在450W。通用基板形态的编号为HLB-325,但具体规格和出货时间暂时不详。说起来,NVIDIA是最早做中国特供版AI加速器的,也就是H800、A800,后来也被禁售了,最近又拿出了H20、L20、L2、RTX4090D,都能卖。AMD也设计了特供版InstinctMI309、MI388X,但都被美政府以算力还是太强为由给打回,而年底将要升级到MI350。...PC版:https://www.cnbeta.com.tw/articles/soft/1427052.htm手机版:https://m.cnbeta.com.tw/view/1427052.htm

相关推荐

封面图片

英特尔为 Gaudi 3 AI加速器准备了中国特供版

英特尔为Gaudi3AI加速器准备了中国特供版英特尔日前发布了性能优于H100的AI加速器Gaudi3,其强劲的性能预计无法满足美国政府对于出口芯片的监管要求。但本周,英特尔还发布了Gaudi3人工智能加速器的中国版。其中OAM兼容夹层卡形态的中国版将在6月份推出,编号HL-328,功耗减半至450W,HMB内存、缓存、解码器等完全保留,预计算力将较常规版减半。PCIe扩展卡形态将在9月份出货,中国版编号HL-388,功耗同样减半至450W。通用基板形态的中国版编号为HLB-325,但具体规格和出货时间暂时不详。——

封面图片

Intel发布Gaudi 3 AI加速器:4倍性能提升、无惧1800亿参数大模型

Intel发布Gaudi3AI加速器:4倍性能提升、无惧1800亿参数大模型数据显示,预计到2030年,全球半导体市场规模将达1万亿美元,AI是主要推动力,不过在2023年,只有10%的企业能够成功将其AIGC项目产品化。Intel的最新解决方案,有望帮助企业应对推广AI项目时所面临的挑战,加速实现AIGC落地商用。Intel现有的Gaudi2诞生于2022年5月,并于2023年7月正式引入中国,拥有极高的深度学习性能、效率,以及极高的性价比。它采用台积电7nm工艺制造,集成24个可编程的Tenor张量核心(TPC)、48MBSRAM缓存、21个10万兆内部互连以太网接口(ROCEv2RDMA)、96GBHBM2E高带宽内存(总带宽2.4TB/s)、多媒体引擎等,支持PCIe4.0x16,最高功耗800W,可满足大规模语言模型、生成式AI模型的强算力需求。新一代的Gaudi3面向AI训练和推理,升级为台积电5nm工艺,带来了2倍的FP8AI算力、4倍的BF16AI算力、2倍的网络带宽、1.5倍的内存带宽。对比NVIDIAH100,它在流行LLM上的推理性能领先50%、训练时间快40%。Gaudi3预计可大幅缩短70亿和130亿参数Llama2模型、1750亿参数GPT-3模型的训练时间。在Llama70亿/700亿参数、Falcon1800亿参数大型语言模型上,Gaudi3的推理吞吐量和能效也都非常出色。Gaudi3提供多种灵活的形态,包括OAM兼容夹层卡、通用基板、PCIe扩展卡,满足不同应用需求。Gaudi3提供开放的、基于社区的软件,以及行业标准以太网网络,可以灵活地从单个节点扩展到拥有数千个节点的集群、超级集群和超大集群,支持大规模的推理、微调和训练。Gaudi3AI加速器具备高性能、经济实用、节能、可快速部署等优点,能够充分满足复杂性、成本效益、碎片化、数据可靠性、合规性等AI应用需求。Gaudi3将于2024年第二季度面向OEM厂商出货,包括戴尔、慧与、联想、超威等。目前,IntelGaudi加速器的行业客户及合作伙伴有NAVER、博世(Bosch)、IBM、Ola/Krutrim、NielsenIQ、Seekr、IFF、CtrlSGroup、BhartiAirtel、LandingAI、Roboflow、Infosys,等等。此外,Intel还宣布联合Anyscale、DataStax、Domino、HuggingFace、KXSystems、MariaDB、MinIO、Qdrant、RedHat、Redis、SAP、SAS、VMware、Yellowbrick、Zilliz等伙伴,共同创建一个开放平台,助力企业推动AI创新。该计划旨在开发开放的、多供应商的AIGC系统,通过RAG(检索增强生成)技术,提供一流的部署便利性、性能和价值。初始阶段,Intel将利用至强处理器、Gaudi加速器,推出AIGC流水线的参考实现,发布技术概念框架,并继续加强IntelTiber开发者云平台基础设施的功能。...PC版:https://www.cnbeta.com.tw/articles/soft/1426791.htm手机版:https://m.cnbeta.com.tw/view/1426791.htm

封面图片

Intel为中国带来Gaudi2 AI加速器 唯一替代NVIDIA GPU

Intel为中国带来Gaudi2AI加速器唯一替代NVIDIAGPUIntel执行副总裁兼数据中心与人工智能事业部总经理SandraRivera在发布会上表示:“Intel致力于通过为客户提供广泛的硬件选择,并支持开放的软件环境,加速AI技术的发展。凭借包括至强可扩展处理器、Gaudi2深度学习加速器在内的产品组合,Intel正在降低AI的准入门槛,并强化客户在云端通过网络和智能边缘部署这一关键业务技术的能力,从而帮助构建中国AI的未来。”HabanaLabs成立于2016年,致力于研发世界一流的AI加速器,满足人工智能、深度学习计算快速发展的需求,创业初期就得到了Intel的投资,2019年12月被Intel正式收购。Habana的第二代加速器Gaudi2采用台积电7nm工艺制造,集成24个可编程的Tenor张量核心(TPC)、48MBSRAM缓存、21个10万兆内部互连以太网接口(ROCEv2RDMA)、96GBHBM2E高带宽内存(总带宽2.4TB/s)、多媒体引擎等,支持PCIe4.0x16,最高功耗800W。基于Gaudi2加速器芯片,Intel还设计了夹层卡HL-225B,采用标准的OAM封装接口,方便客户部署与使用。凭借高性能和高效扩展性,Gaudi2加速器可以满足大规模语言模型、生成式AI模型的强算力需求。↑↑↑Gaudi2加速器正面实拍↑↑↑Gaudi2加速器背面实拍(这个角度不多见吧)Gaudi系列加速器优异的深度学习训练吞吐量、推理速度性能,已经得到了业界领先机构、客户的普遍认可。比如,正是在第一代Gaudi加速器的加持下,亚马逊EC2DL1实例相比于在AWS云上运行NVIDIAGPU的同类实例,性价比高出多达40%。↑↑↑Gaudi2加速器现场演示多语言算法编程机器学习与人工智能开放产业联盟MLCommons在六月底公布的AI性能基准测试MLPerfTraining3.0的最新结果,更是进一步凸显了Gaudi2加速器的高性能、高性价比,联合Intel第四代至强可扩展处理器,已经成为唯一能够可靠取代NVIDIAGPU的方案。截止2023年6月,Gaudi2是除了NVIDIAH100GPU以外,向GPT-3大模型训练基准提交性能结果的解决方案。测试结果显示,面对要求极为苛刻的、1750亿参数的GPT-3模型,384个Gaudi2加速器上的训练时间仅为311.9分钟,而且从256个加速器到384个加速器,性能扩展幅度达95%,非常接近理想的线性提升。StableDiffusion训练上,Gaudi2加速器从1张卡到64张卡,扩展性更是达到了惊人的99%。此外,在计算机视觉模型ResNet-50(8个加速器)和Unet3D(8个加速器),以及自然语言处理模型BERT(8个和64个加速器)上,Gaudi2都取得了优异的训练结果。与去年11月提交的数据相比,BERT和ResNet模型的性能分别提高了10%、4%。值得一提的是,本次MLPerf3.0的Gaudi2结果以BF16数据类型提交,在四种不同模型上的性能均优于NVIDIAA100,价格更便宜。第三季度还会发布对FP8数据类型的软件支持与新功能,预计届时Gaudi2的性能将有明显飞跃,预计性价比将超越NVIDIAH100。Gaudi2加速器还得到了AI与机器学习开源软件供应商HuggingFace的采纳。其测试结果显示,从预训练BERT(NLP模型)到稳定扩散(流行的多模态模型)推理,再到1760亿参数的大型开源聊天模BLOOMZ的推理,Gaudi2的表现都领先于NVIDIAA100GPU。工欲善其事,必先利其器。为了充分发挥Gaudi2加速器的性能潜力,满足日益增长的生成式AI、大语言模型需求,Intel一直在同步打造高效、成熟的软件支持。比如说SynapseAI软件套件,针对Gaudi平台深度学习业务进行了优化,可以大大简化模型的开发与迁移,能够将当前基于GPU的模型业务和系统,快速迁移到基于全新Gaudi2的服务器SynapseAI集成了对TensorFlow、PyTorch框架的支持,并提供众多流行的计算机视觉和自然语言参考模型,能够满足深度学习开发者的多样化需求生态合作方面,IntelGaudi2加速器也正在遍地开花。本次发布会上,美团、百度智能云、浪潮信息均分享了其基于Intel软硬件产品组合的多样化智能业务进展。比如百度智能云,集成AMX加速引擎的Intel第四代至强可扩展处理器,为ERNIE-Tiny模型带来了多倍的性能优化。比如浪潮信息,正式发布了全新的AI服务器NF5698G7,6U高度,上层集成八颗Gaudi2加速器,互连总带宽达4.2Tb/s,下层双路56核心第四代至强可扩展MAX处理器,支持AMX、DSA等AI加速器。整体为全互联拓扑结构,支持业界主流AI框架、开发工具、大模型算法,可满足大模型训练张量并行数百GB/s的通信需求。该服务器还有极高的扩展性,节点间互连带宽最高达4800Gbps,支持RDMA网络计算和存储通信,并提供多达32条DDR5内存插槽、12条PCIe5.0x16扩展插槽。此外,新华三、超聚变等也都是IntelGaudi在中国的合作伙伴,生态规模正艺逐步扩大。↑↑↑可安装八颗Gaudi2加速器↑↑↑双路四代至强处理器...PC版:https://www.cnbeta.com.tw/articles/soft/1370413.htm手机版:https://m.cnbeta.com.tw/view/1370413.htm

封面图片

#英特尔AI加速器可以卖给#中国,但算力要砍掉一半?https://www.bannedbook.org/bnews/finan

封面图片

1000+亿晶体管怪物 Intel GPU Max诞生一年半就被放弃

1000+亿晶体管怪物IntelGPUMax诞生一年半就被放弃据最新曝料,Intel已经告知合作伙伴,GPUMax系列将逐步停产退市,IntelAI加速器的重点将放在Guadi2/3系列,还有明年的第二代GPUMaxFalconShores。PonteVecchioGPUMax当年是RajaKoduri力推的项目,采用了5种不同制造工艺、47个不同模块,晶体管数量超过1000亿个,配备最多128个Xe-HPC高性能计算核心、128个光追核心、64MB一级缓存、108MB二级缓存、128GBHBM高带宽内存,满血功耗600W。Gaudi3则是独立的AI加速器,不久前刚刚发布,升级台积电5nm工艺,配备了8个矩阵引擎、64个张量核心、96MBSRAM缓存、1024-bit128GBHBM2E内存,满血功耗达900W。Intel声称,它相比上代拥有2倍的FP8AI算力、4倍的BF16AI算力、2倍的网络带宽、1.5倍的内存带宽,而对比NVIDIAH100LLM推理性能领先50%、训练时间快40%。针对中国市场,Gaudi3将提供特殊版本,功耗最高限制在450W。FalconShores最初规划融合CPU、GPU,就像AMDInstinctMI300A,但后来改为纯GPU方案,融合设计则后续再说。...PC版:https://www.cnbeta.com.tw/articles/soft/1430996.htm手机版:https://m.cnbeta.com.tw/view/1430996.htm

封面图片

唯一可靠替代NVIDIA Intel至强CPU、Gaudi2加速器AI组合做到了

唯一可靠替代NVIDIAIntel至强CPU、Gaudi2加速器AI组合做到了MLPerf是目前最具信服力的AI性能测试基准,能够在各种解决方案之间进行公平、可重复的性能比较。目前,Intel已经拥有超过100次的MLPerf性能测试结果,而且是唯一一个使用行业标准的深度学习生态系统软件,并公开提交CPU结果的厂商。根据业内当前的普遍观点,生成式AI和大语言模型(LLM)只适合在高性能GPU上运行,但最新数据显示,基于IntelCPU、加速器的组合方案,同样有着极高的效率,而且是开放生态环境,效率与规模不受限制,从而为客户提供极具竞争力的选择。其中,第四代可扩展至强内置的各种加速器,使其成为在通用CPU处理器上运行大量AI工作负载的理想解决方案,Gaudi则在生成式AI、LLM方面有着优秀的性能,此外Intel还提供了经过优化的、易于编程的开放软件,降低AI部署门槛。HabanaGaudi2夹层卡最新的MLPerf3.0测试结果显示,面对要求极为苛刻的、1750亿参数的GPT-3模型,HabanaGaudi2的性能非常出色,可扩展性也非常灵活:1、384个加速器上的训练时间仅为311.9分钟——512个NVIDIAH100加速器需要64.3分钟。2、256个加速器到384个加速器,性能扩展95%,接近线性提升。3、在计算机视觉模型ResNet-50(8个加速器)和Unet3D(8个加速器),以及自然语言处理模型BERT(8个和64个加速器)上,都取得了优异的训练结果。4、与去年11月提交的数据相比,BERT和ResNet模型的性能分别提高了10%、4%。5、支持“开箱即用”,客户在本地或在云端使用Gaudi2时,可以获得与本次测试相当的性能结果。值得一提的是,Gaudi2是仅有的两个向GPT-3大模型训练基准提交性能结果的解决方案之一。软件层面,本次提交的GPT-3模型基于PyTorch,并采用了当前流行的、隶属微软大规模AI的DeepSpeed优化库,而非定制软件。DeepSpeed能够同时支持Data、Tensor、Pipeline的三维并行,进一步优化了大语言模型的扩展性能效率。本次MLPerf3.0的Gaudi2结果以BF16数据类型提交,在四种不同模型上的性能均优于NVIDIAA100,价格更便宜。第三季度还会发布对FP8数据类型的软件支持与新功能,预计届时Gaudi2的性能将有明显飞跃,预计性价比将超越NVIDIAH100。Intel可扩展至强则是向MLPerf3.0提交的众多解决方案中,唯一基于CPU通用处理器的,也支持“开箱即用”,即在通用系统上部署AI。MLPerf3.0四代可扩展至强测试的亮点有:1、在封闭区,47.93分钟的训练时间即可完成BERT模型,88.17分钟即可完成ResNet-50模型。2、多节点扩展可以实现几乎线性的性能提升,可达97-100%。3、BERT模型的开放区扩展至16个节点时,31.06分钟即可完成模型训练。4、对于较大的RetinaNet模型,16个节点上的训练时间仅为232分钟。5、基于IntelAMX高级矩阵扩展,可提供显著的“开箱即用”性能提升,覆盖多个框架、端到端数据科学工具,以及广泛的智能解决方案生态系统。Intel还对比了至强铂金8480+、NVIDIAA100使用不同数据集完成HuggingFaceDistilbert模型的结果,分别只需3.61分钟、0.7分钟。虽然相比对手的1.49分钟、0.45分钟还有差距,但速度已经相当快,尤其是作为通用CPU对比专用GPU达到如此程度,实属不易,这都得益于Intel良好、深入的系统优化。...PC版:https://www.cnbeta.com.tw/articles/soft/1367873.htm手机版:https://m.cnbeta.com.tw/view/1367873.htm

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人