Intel GPU号称领先NVIDIA 2.5倍?细看尴尬了

IntelGPU号称领先NVIDIA2.5倍?细看尴尬了HotChips34大会史昂,Intel又公布了PonteVecchioGPU高性能计算卡的更多细节,包括性能数据。PonteVecchioGPU基于全新的XeHPC高性能计算架构,使用5种不同制造工艺(Intel7和台积电N7/N5等)、多种封装技术,整合了多达47个不同计算模块,晶体管数量超1000亿个。它一个模块有128个Xe核心、128个光追单元、64MB一级缓存、408MB二级缓存、128GBHBM2e高带宽内存,支持PCIe5.0,可以四路甚至八路并联。Intel给出的最新数据声称,PonteVecchioFP32单精度、FP64双精度性能可达52TFlops,TF3.2浮点性能可达419TFlops,BF16、PF16浮点性能可达839TFlops,INT8整数性能则可达1678Tops。DataParallelC++(DPC++)测试项目中,PonteVecchio的性能相比于NVIDIAA100可以领先1.4-2.5倍。另外,ExaSMROpenMC计算性能可领先2倍,NekRS性能则领先0.3-1.7倍。当然,NVIDIA新一代的H100都已经发布了……PonteVecchio的使命是将联合下一代可扩展至强SapphireRapids,用于美国的首批三台百亿亿次超算之一Aorura,但不幸的是,SapphireRapids一再推迟,预计明年第二季度才能发布,PonteVecchio也一直没有量产上市。相比之下,AMD三代霄龙处理器、InstinctMI250X加速卡组成的Frontier已经上线运行,并以1.6EFlops的性能,成为当今(公开的)超算之王。PC版:https://www.cnbeta.com/articles/soft/1307421.htm手机版:https://m.cnbeta.com/view/1307421.htm

相关推荐

封面图片

60亿参数AI模型测试:Intel 2.4倍领先 唯一可替代NVIDIA

60亿参数AI模型测试:Intel2.4倍领先唯一可替代NVIDIA此前6月份披露的MLCommonsAI训练结果、HuggingFace性能基准测试成绩表明,IntelGaudi2AI加速器在先进的视觉语言模型上,表现完全可以超越NVIDIAH100股加速器,堪称可唯一替代NVIDIAH100/A100的可行方案,最新结果再次验证了这一点。GPT-J模型上,IntelGaudi2加速器的GPT-J-99、GPT-J-99.9服务器查询和离线样本的推理性能分别为78.58次/秒、84.08次/秒。对比竞品,H100相较于Gaudi2只有1.09倍(服务器)、1.28倍(离线)的性能领先优势,Gaudi2对比A100的优势则可达2.4倍(服务器)、2倍(离线)的性能。值得一提的是,Gaudi2提交的结果采用FP8数据类型,准确率达到99.9%。Gaudi2软件每6-8周就会更新一次,将继续提升MLPerf基准测试性能,并扩大模型覆盖范围。同时,Intel提交了基于SapphireRapids第四代至强可扩展处理器的7个推理基准测试,其中就包括GPT-J模型。结果显示,包括视觉、语言处理、语音和音频翻译模型,以及更大的DLRMv2深度学习推荐模型、ChatGPT-J模型在内,四代至强在处理通用AI负载时性能非常出色。截至目前,Intel仍是唯一一家使用行业标准的深度学习生态系统软件提交公开CPU结果的厂商。根据最新结果,使用GPT-J对大约1000-1500字新闻稿进行100字总结的任务,四代至强在离线模式下每秒完成两段,实时服务器模式下则可完成每秒一段。此外,Intel首次提交了至强CPUMax处理器的MLPerf测试结果,其集成最多64GBHBM3高带宽内存,对于GPT-J而言是唯一能够达到99.9%准确度的CPU,非常适合精度要求极高的应用。...PC版:https://www.cnbeta.com.tw/articles/soft/1383413.htm手机版:https://m.cnbeta.com.tw/view/1383413.htm

封面图片

NVIDIA 144核心超级CPU揭秘:3.5倍能效碾压AMD 128核心

NVIDIA144核心超级CPU揭秘:3.5倍能效碾压AMD128核心GraceCPU二合一GraceCPU+HopperGPU二合一它通过NVLink-C2C芯片间互连总线,将两颗GraceCPU整合在一块基板上,彼此之间的双向带宽多达900GB/s。GraceCPU基于Armv9-A9.0架构、NeoverseV264位内核,以4个128-bit功能单元的方式配置了两组SIMD矢量指令集,一是SVE2(缩放矢量扩展第二版),二是NEON(高级SIMD)。它还支持LSE(大型系统扩展),可提供低成本的原子操作,改进CPU通信吞吐。NVIDIA声称,这种核心的能效,是如今服务器常见x86核心的2倍。GraceCPU单颗集成72个核心,互相通过3.2TB/s超高带宽的NVIDIA缩放一致性Fabric总线互连,而二合一的超级芯片上就是144个核心。每核心64KB一级指令缓存、64KB一级数据缓存、1MB二级缓存,一颗超级芯片的所有核心共享234MB三级缓存。内存整合封装了LPDDR5X,最大容量960GB,最高带宽1TB/s(每一颗500GB/s),还支持ECC。对比传统的八通道DDR5,这种设计不但带宽高出53%,单位功耗也只有1/8。对比海量带宽的HBM2e,单位成本只有1/3,容量则可达8倍。扩展支持八组PCIe5.0x16,总带宽1TB/s,还有用于管理的低速PCIe通道。性能方面,一颗超级芯片的FP64双精度峰值浮点性能可达7.1TFlops(每秒7.1万亿次计算),热设计功耗500W。NVIDIA对比了AMDZen3架构的霄龙776364核心,双路组成128核心,号称性能可领先1.5-2.5倍,能效可领先2.0-3.5倍!当然,AMD已经有了Zen4架构、最多96核心的霄龙9004系列,NVIDIAGrace依然还没有商用。...PC版:https://www.cnbeta.com.tw/articles/soft/1340283.htm手机版:https://m.cnbeta.com.tw/view/1340283.htm

封面图片

Intel提前开发2025年的XPU处理器:CPU/GPU合体、三大5倍提升

Intel提前开发2025年的XPU处理器:CPU/GPU合体、三大5倍提升Intel当前的高性能GPU中,用于AI及HPC计算的是PonteVecchio,用于虚拟、云加速市场的是ArciticSondM,按照之前的规划,它们应该在今年被RialtoBridge和LancasterSound系列新品取代。Intel最新的路线图中,JeffMcVeigh宣布停止这两款产品的开发,直接开发下一代的产品,也就是代号“FalconShores”(猎鹰海岸)的XPU,2025年推出,采用基于chiplet芯粒灵活架构,以满足呈指数级增长的科学计算和AI计算需求。Intel正在研究该架构的不同版本,以支持AI、科学计算和两者融合的市场需求。这个基础性架构非常灵活,可以随着时间的推移集成Intel和客户的新IP(包括CPU内核和其它芯粒),使用IntelIDM2.0模式制造。Flex系列产品也以两年为推出周期,MelvilleSound将成为IntelFlex系列的下一代产品,实现在性能,功能和工作负载方面的重大架构飞跃。“FalconShores”去年底的ISC超算大会上正式公布,它不是简单的CPU或者GPU,而是被Intel称为XPU,可以按需配置不同区块模块,x86CPU核心、XeGPU核心整合在一个芯片内,随意搭配,数量和比例都非常灵活。它会采用埃米级制造工艺(Intel20A/18A,后者可能性更大),辅以下一代先进封装技术,具备极高的共享内存带宽、业界领先的IO输入输出,还可以大大简化编程模型。按照Intel给出的数字,对比当今水平,FalconShores的能耗比提升超过5倍,x86计算密度提升超过5倍,内存容量与密度提升超过5倍。Intel还介绍了当前的至强及Max系列GPU的应用情况,如下所示:客户应用:Intel数据中心领域的至强和Max系列产品,在早期的工作中已经得到客户的好评。Intel数据中心GPUFlex系列:Intel数据中心GPUFlex系列凭借硬件方面的独特优势以及对于开放软件生态系统的投入,在国内已通过搭载新华三、宁畅、宝德、超聚变等众多OEM合作伙伴的系统陆续面市,同时在当虹科技、中科大洋、火山引擎、亿联网络等行业合作伙伴的实际使用场景中实现了针对不同视觉云工作负载的应用部署落地,在此过程中也获得了来自中国联通、天翼云、移动云的电信运营商的支持,整体生态呈现良好增长势头。性能表现:Intel数据中心GPUFlex系列:Intel数据中心GPUFlex系列可以灵活处理媒体处理与传输、云游戏、AI推理、VDI多种云工作负载,有效优化使用者的总体拥有成本。Flex系列GPU可满足图像质量、部署密度和时延方面的要求。在集成了基于硬件的、业界领先的AV1编码器的基础上,Flex系列数据中心GPU可以提供更出色的媒体转码吞吐性能和解码吞吐性能,且能耗低于同类型解决方案。它还实现了30%以上的带宽增幅。Intel数据中心GPUMax系列:Max系列GPU是Intel迄今为止最复杂的处理器,采用了先进的制造工艺,支持光线追踪、Rambo缓存以及用于AI的深度脉动阵列等。据客户反馈,Max系列GPU在材料科学、宇宙学和等离子体物理相关代码方面的实际应用中,有相较于同类领先GPU30-260%的加速优势。Intel还在开发比肩NVIDIAA100的数据中心产品。正如Jeff在博客中指出的那样,在材料科学、宇宙学和等离子体物理相关代码方面的实际应用中,有相较于同类领先GPU(来自NVIDIA)30%到260%的加速优势。...PC版:https://www.cnbeta.com.tw/articles/soft/1347709.htm手机版:https://m.cnbeta.com.tw/view/1347709.htm

封面图片

Intel宣布Falcon Shores将回归纯GPU方案 不再集成CPU部分

Intel宣布FalconShores将回归纯GPU方案不再集成CPU部分Intel也早就规划了“FalconShores”(猎鹰海岸),官方称之为“XPU”,将传统的至强x86处理器、XeGPU加速卡整合在一起,而且是可以按需配置的模块化设计,并采用埃米级制造工艺(20A/18A)。按照Intel之前给出的数字,对比当今水平,FalconShores的能耗比提升超过5倍,x86计算密度提升超过5倍,内存容量与密度提升超过5倍。为了它,Intel甚至取消了下一代加速GPURiatoRidge,但是,计划永远赶不上变化。Intel最新宣布,FalconShores将回归纯GPU方案,不再集成CPU部分,而发布时间暂定为2025年。Intel表示,这样可以简化产品设计、编程适配,只需要单独的GPU编程接口即可,同时继续搭配至强处理器,提供灵活的CPU、GPU配比。其他方面,FlaconShores和现在的PonteVecchio一样都是基于Tile的模块化架构,升级I/O、HBM3,并集成标准以太交换网。不过,Intel并未彻底放弃CPU+GPU一体式的XPU融合方案,而是推后,未来仍将开发此类产品。此外,Intel还公布了现有PonteVecchioMax1550的性能数据,600W功耗下,对比NVIDIAH100,平均领先30%,部分优势项目甚至具备2.8倍的优势。只是,Intel对比的是NVIDIAH100PCIe版本,后者的功耗仅为350W,它还有SXM版本,功耗可达700W,但性能更强劲。...PC版:https://www.cnbeta.com.tw/articles/soft/1361191.htm手机版:https://m.cnbeta.com.tw/view/1361191.htm

封面图片

1000+亿晶体管怪物 Intel GPU Max诞生一年半就被放弃

1000+亿晶体管怪物IntelGPUMax诞生一年半就被放弃据最新曝料,Intel已经告知合作伙伴,GPUMax系列将逐步停产退市,IntelAI加速器的重点将放在Guadi2/3系列,还有明年的第二代GPUMaxFalconShores。PonteVecchioGPUMax当年是RajaKoduri力推的项目,采用了5种不同制造工艺、47个不同模块,晶体管数量超过1000亿个,配备最多128个Xe-HPC高性能计算核心、128个光追核心、64MB一级缓存、108MB二级缓存、128GBHBM高带宽内存,满血功耗600W。Gaudi3则是独立的AI加速器,不久前刚刚发布,升级台积电5nm工艺,配备了8个矩阵引擎、64个张量核心、96MBSRAM缓存、1024-bit128GBHBM2E内存,满血功耗达900W。Intel声称,它相比上代拥有2倍的FP8AI算力、4倍的BF16AI算力、2倍的网络带宽、1.5倍的内存带宽,而对比NVIDIAH100LLM推理性能领先50%、训练时间快40%。针对中国市场,Gaudi3将提供特殊版本,功耗最高限制在450W。FalconShores最初规划融合CPU、GPU,就像AMDInstinctMI300A,但后来改为纯GPU方案,融合设计则后续再说。...PC版:https://www.cnbeta.com.tw/articles/soft/1430996.htm手机版:https://m.cnbeta.com.tw/view/1430996.htm

封面图片

Intel 发布 Lunar Lake 处理器,带来1.5倍 GPU、3倍 NPU 性能提升

Intel发布LunarLake处理器,带来1.5倍GPU、3倍NPU性能提升LunarLake架构解析:媲美旧P核性能的Skymount、没有超线程的LionCove·P核、E核、GPU架构全换,没有超线程·CPU、GPU、NPU放在同一个Tile(即Chiplet)上,Tile数量减少·取消上一代放在SoCTile里的LPE核·全部交由台积电代工,TSMCN3E+N6

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人