60亿参数AI模型测试:Intel 2.4倍领先 唯一可替代NVIDIA

60亿参数AI模型测试:Intel2.4倍领先唯一可替代NVIDIA此前6月份披露的MLCommonsAI训练结果、HuggingFace性能基准测试成绩表明,IntelGaudi2AI加速器在先进的视觉语言模型上,表现完全可以超越NVIDIAH100股加速器,堪称可唯一替代NVIDIAH100/A100的可行方案,最新结果再次验证了这一点。GPT-J模型上,IntelGaudi2加速器的GPT-J-99、GPT-J-99.9服务器查询和离线样本的推理性能分别为78.58次/秒、84.08次/秒。对比竞品,H100相较于Gaudi2只有1.09倍(服务器)、1.28倍(离线)的性能领先优势,Gaudi2对比A100的优势则可达2.4倍(服务器)、2倍(离线)的性能。值得一提的是,Gaudi2提交的结果采用FP8数据类型,准确率达到99.9%。Gaudi2软件每6-8周就会更新一次,将继续提升MLPerf基准测试性能,并扩大模型覆盖范围。同时,Intel提交了基于SapphireRapids第四代至强可扩展处理器的7个推理基准测试,其中就包括GPT-J模型。结果显示,包括视觉、语言处理、语音和音频翻译模型,以及更大的DLRMv2深度学习推荐模型、ChatGPT-J模型在内,四代至强在处理通用AI负载时性能非常出色。截至目前,Intel仍是唯一一家使用行业标准的深度学习生态系统软件提交公开CPU结果的厂商。根据最新结果,使用GPT-J对大约1000-1500字新闻稿进行100字总结的任务,四代至强在离线模式下每秒完成两段,实时服务器模式下则可完成每秒一段。此外,Intel首次提交了至强CPUMax处理器的MLPerf测试结果,其集成最多64GBHBM3高带宽内存,对于GPT-J而言是唯一能够达到99.9%准确度的CPU,非常适合精度要求极高的应用。...PC版:https://www.cnbeta.com.tw/articles/soft/1383413.htm手机版:https://m.cnbeta.com.tw/view/1383413.htm

相关推荐

封面图片

Intel为中国带来Gaudi2 AI加速器 唯一替代NVIDIA GPU

Intel为中国带来Gaudi2AI加速器唯一替代NVIDIAGPUIntel执行副总裁兼数据中心与人工智能事业部总经理SandraRivera在发布会上表示:“Intel致力于通过为客户提供广泛的硬件选择,并支持开放的软件环境,加速AI技术的发展。凭借包括至强可扩展处理器、Gaudi2深度学习加速器在内的产品组合,Intel正在降低AI的准入门槛,并强化客户在云端通过网络和智能边缘部署这一关键业务技术的能力,从而帮助构建中国AI的未来。”HabanaLabs成立于2016年,致力于研发世界一流的AI加速器,满足人工智能、深度学习计算快速发展的需求,创业初期就得到了Intel的投资,2019年12月被Intel正式收购。Habana的第二代加速器Gaudi2采用台积电7nm工艺制造,集成24个可编程的Tenor张量核心(TPC)、48MBSRAM缓存、21个10万兆内部互连以太网接口(ROCEv2RDMA)、96GBHBM2E高带宽内存(总带宽2.4TB/s)、多媒体引擎等,支持PCIe4.0x16,最高功耗800W。基于Gaudi2加速器芯片,Intel还设计了夹层卡HL-225B,采用标准的OAM封装接口,方便客户部署与使用。凭借高性能和高效扩展性,Gaudi2加速器可以满足大规模语言模型、生成式AI模型的强算力需求。↑↑↑Gaudi2加速器正面实拍↑↑↑Gaudi2加速器背面实拍(这个角度不多见吧)Gaudi系列加速器优异的深度学习训练吞吐量、推理速度性能,已经得到了业界领先机构、客户的普遍认可。比如,正是在第一代Gaudi加速器的加持下,亚马逊EC2DL1实例相比于在AWS云上运行NVIDIAGPU的同类实例,性价比高出多达40%。↑↑↑Gaudi2加速器现场演示多语言算法编程机器学习与人工智能开放产业联盟MLCommons在六月底公布的AI性能基准测试MLPerfTraining3.0的最新结果,更是进一步凸显了Gaudi2加速器的高性能、高性价比,联合Intel第四代至强可扩展处理器,已经成为唯一能够可靠取代NVIDIAGPU的方案。截止2023年6月,Gaudi2是除了NVIDIAH100GPU以外,向GPT-3大模型训练基准提交性能结果的解决方案。测试结果显示,面对要求极为苛刻的、1750亿参数的GPT-3模型,384个Gaudi2加速器上的训练时间仅为311.9分钟,而且从256个加速器到384个加速器,性能扩展幅度达95%,非常接近理想的线性提升。StableDiffusion训练上,Gaudi2加速器从1张卡到64张卡,扩展性更是达到了惊人的99%。此外,在计算机视觉模型ResNet-50(8个加速器)和Unet3D(8个加速器),以及自然语言处理模型BERT(8个和64个加速器)上,Gaudi2都取得了优异的训练结果。与去年11月提交的数据相比,BERT和ResNet模型的性能分别提高了10%、4%。值得一提的是,本次MLPerf3.0的Gaudi2结果以BF16数据类型提交,在四种不同模型上的性能均优于NVIDIAA100,价格更便宜。第三季度还会发布对FP8数据类型的软件支持与新功能,预计届时Gaudi2的性能将有明显飞跃,预计性价比将超越NVIDIAH100。Gaudi2加速器还得到了AI与机器学习开源软件供应商HuggingFace的采纳。其测试结果显示,从预训练BERT(NLP模型)到稳定扩散(流行的多模态模型)推理,再到1760亿参数的大型开源聊天模BLOOMZ的推理,Gaudi2的表现都领先于NVIDIAA100GPU。工欲善其事,必先利其器。为了充分发挥Gaudi2加速器的性能潜力,满足日益增长的生成式AI、大语言模型需求,Intel一直在同步打造高效、成熟的软件支持。比如说SynapseAI软件套件,针对Gaudi平台深度学习业务进行了优化,可以大大简化模型的开发与迁移,能够将当前基于GPU的模型业务和系统,快速迁移到基于全新Gaudi2的服务器SynapseAI集成了对TensorFlow、PyTorch框架的支持,并提供众多流行的计算机视觉和自然语言参考模型,能够满足深度学习开发者的多样化需求生态合作方面,IntelGaudi2加速器也正在遍地开花。本次发布会上,美团、百度智能云、浪潮信息均分享了其基于Intel软硬件产品组合的多样化智能业务进展。比如百度智能云,集成AMX加速引擎的Intel第四代至强可扩展处理器,为ERNIE-Tiny模型带来了多倍的性能优化。比如浪潮信息,正式发布了全新的AI服务器NF5698G7,6U高度,上层集成八颗Gaudi2加速器,互连总带宽达4.2Tb/s,下层双路56核心第四代至强可扩展MAX处理器,支持AMX、DSA等AI加速器。整体为全互联拓扑结构,支持业界主流AI框架、开发工具、大模型算法,可满足大模型训练张量并行数百GB/s的通信需求。该服务器还有极高的扩展性,节点间互连带宽最高达4800Gbps,支持RDMA网络计算和存储通信,并提供多达32条DDR5内存插槽、12条PCIe5.0x16扩展插槽。此外,新华三、超聚变等也都是IntelGaudi在中国的合作伙伴,生态规模正艺逐步扩大。↑↑↑可安装八颗Gaudi2加速器↑↑↑双路四代至强处理器...PC版:https://www.cnbeta.com.tw/articles/soft/1370413.htm手机版:https://m.cnbeta.com.tw/view/1370413.htm

封面图片

唯一可靠替代NVIDIA Intel至强CPU、Gaudi2加速器AI组合做到了

唯一可靠替代NVIDIAIntel至强CPU、Gaudi2加速器AI组合做到了MLPerf是目前最具信服力的AI性能测试基准,能够在各种解决方案之间进行公平、可重复的性能比较。目前,Intel已经拥有超过100次的MLPerf性能测试结果,而且是唯一一个使用行业标准的深度学习生态系统软件,并公开提交CPU结果的厂商。根据业内当前的普遍观点,生成式AI和大语言模型(LLM)只适合在高性能GPU上运行,但最新数据显示,基于IntelCPU、加速器的组合方案,同样有着极高的效率,而且是开放生态环境,效率与规模不受限制,从而为客户提供极具竞争力的选择。其中,第四代可扩展至强内置的各种加速器,使其成为在通用CPU处理器上运行大量AI工作负载的理想解决方案,Gaudi则在生成式AI、LLM方面有着优秀的性能,此外Intel还提供了经过优化的、易于编程的开放软件,降低AI部署门槛。HabanaGaudi2夹层卡最新的MLPerf3.0测试结果显示,面对要求极为苛刻的、1750亿参数的GPT-3模型,HabanaGaudi2的性能非常出色,可扩展性也非常灵活:1、384个加速器上的训练时间仅为311.9分钟——512个NVIDIAH100加速器需要64.3分钟。2、256个加速器到384个加速器,性能扩展95%,接近线性提升。3、在计算机视觉模型ResNet-50(8个加速器)和Unet3D(8个加速器),以及自然语言处理模型BERT(8个和64个加速器)上,都取得了优异的训练结果。4、与去年11月提交的数据相比,BERT和ResNet模型的性能分别提高了10%、4%。5、支持“开箱即用”,客户在本地或在云端使用Gaudi2时,可以获得与本次测试相当的性能结果。值得一提的是,Gaudi2是仅有的两个向GPT-3大模型训练基准提交性能结果的解决方案之一。软件层面,本次提交的GPT-3模型基于PyTorch,并采用了当前流行的、隶属微软大规模AI的DeepSpeed优化库,而非定制软件。DeepSpeed能够同时支持Data、Tensor、Pipeline的三维并行,进一步优化了大语言模型的扩展性能效率。本次MLPerf3.0的Gaudi2结果以BF16数据类型提交,在四种不同模型上的性能均优于NVIDIAA100,价格更便宜。第三季度还会发布对FP8数据类型的软件支持与新功能,预计届时Gaudi2的性能将有明显飞跃,预计性价比将超越NVIDIAH100。Intel可扩展至强则是向MLPerf3.0提交的众多解决方案中,唯一基于CPU通用处理器的,也支持“开箱即用”,即在通用系统上部署AI。MLPerf3.0四代可扩展至强测试的亮点有:1、在封闭区,47.93分钟的训练时间即可完成BERT模型,88.17分钟即可完成ResNet-50模型。2、多节点扩展可以实现几乎线性的性能提升,可达97-100%。3、BERT模型的开放区扩展至16个节点时,31.06分钟即可完成模型训练。4、对于较大的RetinaNet模型,16个节点上的训练时间仅为232分钟。5、基于IntelAMX高级矩阵扩展,可提供显著的“开箱即用”性能提升,覆盖多个框架、端到端数据科学工具,以及广泛的智能解决方案生态系统。Intel还对比了至强铂金8480+、NVIDIAA100使用不同数据集完成HuggingFaceDistilbert模型的结果,分别只需3.61分钟、0.7分钟。虽然相比对手的1.49分钟、0.45分钟还有差距,但速度已经相当快,尤其是作为通用CPU对比专用GPU达到如此程度,实属不易,这都得益于Intel良好、深入的系统优化。...PC版:https://www.cnbeta.com.tw/articles/soft/1367873.htm手机版:https://m.cnbeta.com.tw/view/1367873.htm

封面图片

Intel发布Gaudi 3 AI加速器:4倍性能提升、无惧1800亿参数大模型

Intel发布Gaudi3AI加速器:4倍性能提升、无惧1800亿参数大模型数据显示,预计到2030年,全球半导体市场规模将达1万亿美元,AI是主要推动力,不过在2023年,只有10%的企业能够成功将其AIGC项目产品化。Intel的最新解决方案,有望帮助企业应对推广AI项目时所面临的挑战,加速实现AIGC落地商用。Intel现有的Gaudi2诞生于2022年5月,并于2023年7月正式引入中国,拥有极高的深度学习性能、效率,以及极高的性价比。它采用台积电7nm工艺制造,集成24个可编程的Tenor张量核心(TPC)、48MBSRAM缓存、21个10万兆内部互连以太网接口(ROCEv2RDMA)、96GBHBM2E高带宽内存(总带宽2.4TB/s)、多媒体引擎等,支持PCIe4.0x16,最高功耗800W,可满足大规模语言模型、生成式AI模型的强算力需求。新一代的Gaudi3面向AI训练和推理,升级为台积电5nm工艺,带来了2倍的FP8AI算力、4倍的BF16AI算力、2倍的网络带宽、1.5倍的内存带宽。对比NVIDIAH100,它在流行LLM上的推理性能领先50%、训练时间快40%。Gaudi3预计可大幅缩短70亿和130亿参数Llama2模型、1750亿参数GPT-3模型的训练时间。在Llama70亿/700亿参数、Falcon1800亿参数大型语言模型上,Gaudi3的推理吞吐量和能效也都非常出色。Gaudi3提供多种灵活的形态,包括OAM兼容夹层卡、通用基板、PCIe扩展卡,满足不同应用需求。Gaudi3提供开放的、基于社区的软件,以及行业标准以太网网络,可以灵活地从单个节点扩展到拥有数千个节点的集群、超级集群和超大集群,支持大规模的推理、微调和训练。Gaudi3AI加速器具备高性能、经济实用、节能、可快速部署等优点,能够充分满足复杂性、成本效益、碎片化、数据可靠性、合规性等AI应用需求。Gaudi3将于2024年第二季度面向OEM厂商出货,包括戴尔、慧与、联想、超威等。目前,IntelGaudi加速器的行业客户及合作伙伴有NAVER、博世(Bosch)、IBM、Ola/Krutrim、NielsenIQ、Seekr、IFF、CtrlSGroup、BhartiAirtel、LandingAI、Roboflow、Infosys,等等。此外,Intel还宣布联合Anyscale、DataStax、Domino、HuggingFace、KXSystems、MariaDB、MinIO、Qdrant、RedHat、Redis、SAP、SAS、VMware、Yellowbrick、Zilliz等伙伴,共同创建一个开放平台,助力企业推动AI创新。该计划旨在开发开放的、多供应商的AIGC系统,通过RAG(检索增强生成)技术,提供一流的部署便利性、性能和价值。初始阶段,Intel将利用至强处理器、Gaudi加速器,推出AIGC流水线的参考实现,发布技术概念框架,并继续加强IntelTiber开发者云平台基础设施的功能。...PC版:https://www.cnbeta.com.tw/articles/soft/1426791.htm手机版:https://m.cnbeta.com.tw/view/1426791.htm

封面图片

Intel GPU号称领先NVIDIA 2.5倍?细看尴尬了

IntelGPU号称领先NVIDIA2.5倍?细看尴尬了HotChips34大会史昂,Intel又公布了PonteVecchioGPU高性能计算卡的更多细节,包括性能数据。PonteVecchioGPU基于全新的XeHPC高性能计算架构,使用5种不同制造工艺(Intel7和台积电N7/N5等)、多种封装技术,整合了多达47个不同计算模块,晶体管数量超1000亿个。它一个模块有128个Xe核心、128个光追单元、64MB一级缓存、408MB二级缓存、128GBHBM2e高带宽内存,支持PCIe5.0,可以四路甚至八路并联。Intel给出的最新数据声称,PonteVecchioFP32单精度、FP64双精度性能可达52TFlops,TF3.2浮点性能可达419TFlops,BF16、PF16浮点性能可达839TFlops,INT8整数性能则可达1678Tops。DataParallelC++(DPC++)测试项目中,PonteVecchio的性能相比于NVIDIAA100可以领先1.4-2.5倍。另外,ExaSMROpenMC计算性能可领先2倍,NekRS性能则领先0.3-1.7倍。当然,NVIDIA新一代的H100都已经发布了……PonteVecchio的使命是将联合下一代可扩展至强SapphireRapids,用于美国的首批三台百亿亿次超算之一Aorura,但不幸的是,SapphireRapids一再推迟,预计明年第二季度才能发布,PonteVecchio也一直没有量产上市。相比之下,AMD三代霄龙处理器、InstinctMI250X加速卡组成的Frontier已经上线运行,并以1.6EFlops的性能,成为当今(公开的)超算之王。PC版:https://www.cnbeta.com/articles/soft/1307421.htm手机版:https://m.cnbeta.com/view/1307421.htm

封面图片

Intel CEO亲口承认:NVIDIA确实是AI的王者 遥遥领先

IntelCEO亲口承认:NVIDIA确实是AI的王者遥遥领先数据中心方面,原定年底发布的第五代可扩展至强EmeraldRapids,将提前到第三季度。消费级方面,MeteorLake被视为又一个“迅驰”,将真正开启AIPC时代,这也是它被叫做酷睿Ultra的重要原因之一。加速器方面,Intel刚刚在中国发布了特供版Gaudi2,并且已经拿到了下一代Gaudi3的首样片,计划2024-2025年发布,带来2倍性能提升。而谈到AI,就回避不了NVIDIA,基辛格倒也十分大方地承认了对手的领先。他说,NVIDIA在AI领域干得非常漂亮,真的遥遥领先,必须承认他们超级努力,而且非常幸运,在合适的时间、合适的领域取得了突破。不过基辛格也指出,AI依旧很年轻,还有相当多的机遇,Intel也正在赢得客户,因为市场也需要不同的解决方案,需要更高的能效、更低的成本、更多的功能。有意思的是,基辛格再次暗示IntelIFS代工业务可能会为NVIDIA提供服务。...PC版:https://www.cnbeta.com.tw/articles/soft/1374873.htm手机版:https://m.cnbeta.com.tw/view/1374873.htm

封面图片

Intel跑步进入AI PC时代 13代酷睿支持160亿参数大模型、Arc显卡提速54%

Intel跑步进入AIPC时代13代酷睿支持160亿参数大模型、Arc显卡提速54%目前在PC平台上,Intel已发布的12/13代酷睿、ArcA系列显卡,以及即将发布的下一代酷睿,都能满足AIGC对于高算力的需求。再加上软件生态的构建和模型的优化,AIGC场景在台式机、轻薄本、全能本、游戏本等设备上都能落地应用,从而大大提高热门的日常生活、工作效率。其中,基于OpenVINOPyTorch后端的方案,通过PytorchAPI,可以让社区开源模型很好地运行在Intel客户端处理器、集成显卡、独立显卡和专用AI引擎之上。比如说,StableDiffusion的实现Automatic1111WebUI,已经能够通过上述方式,在Intel处理器、显卡上运行FP16浮点精度的模型,支持文生图、图生图、局部修复等功能。更进一步地,Intel通过模型优化,降低了模型对硬件资源的需求,进而提升了模型的推理速度,让社区开源模型能够很好地运行在PC上。眼下,Intel13代酷睿通过XPU加速、low-bit量化,以及其它软件层面的优化,可以让最高达160亿参数的大语言模型,通过BigDL-LLM框架运行在16GB及以上内存容量的个人电脑上。已经验证过的模型包括但不限于:LLAMA/LLAMA2、ChatGLM/ChatGLM2、MPT、Falcon、MOSS、Baichuan、QWen、Dolly、RedPajama、StarCoder、Whisper等,并通过Transformers、LangChainAPI接口支持Windows、Linux的操作系统。即将发布的代号MeteorLake的酷睿Ultra系列,更会成为PCAI历史上的重要里程碑。酷睿Ultra它将通过分离式模块架构,集成名为“VPU”的独立AI加速单元,为PC用户提供AI驱动的新功能、新应用,比如AdobePremierePro中的自动重新构图、场景编辑检测等等,还有更高效的机器学习加速。目前,Intel正与PC产业伙伴合作,加速AI加速应用的落地和普及,未来后续基带产品也会进一步扩展AI能力。另一方面,IntelArc锐炫显卡通过驱动和补丁更新,已经可以较好地支持StableDiffusion,性能提升效果相当显著。Tom'sHardware就分别测试了ArcA77016GB、ArcA750,使用了Automatic1111WebUIOpenVINO。在此之前,ArcA77016GB、ArcA450的性能相比RTX4060落后在20%左右,如今分别大幅提升了54%、40%,对比RTX4060能分别领先25%、6%。要知道,它俩的游戏性能其实远不如RTX4060,但如今AI效率却更高,足可见Intel的硬件性能和软件优化相当给力。再看看AMD显卡的表现,就更加凸显Intel的进步了,RX6000系列的效率依然低得令人发指,RX6800都只有ArcA750的一半多一点点。...PC版:https://www.cnbeta.com.tw/articles/soft/1378203.htm手机版:https://m.cnbeta.com.tw/view/1378203.htm

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人