1000+亿晶体管怪物 Intel GPU Max诞生一年半就被放弃

1000+亿晶体管怪物 Intel GPU Max诞生一年半就被放弃 据最新曝料,Intel已经告知合作伙伴,GPU Max系列将逐步停产退市,Intel AI加速器的重点将放在Guadi 2/3系列,还有明年的第二代GPU Max Falcon Shores。Ponte Vecchio GPU Max当年是Raja Koduri力推的项目,采用了5种不同制造工艺、47个不同模块,晶体管数量超过1000亿个,配备最多128个Xe-HPC高性能计算核心、128个光追核心、64MB一级缓存、108MB二级缓存、128GB HBM高带宽内存,满血功耗600W。Gaudi 3则是独立的AI加速器,不久前刚刚发布,升级台积电5nm工艺,配备了8个矩阵引擎、64个张量核心、96MB SRAM缓存、1024-bit 128GB HBM2E内存,满血功耗达900W。Intel声称,它相比上代拥有2倍的FP8 AI算力、4倍的BF16 AI算力、2倍的网络带宽、1.5倍的内存带宽,而对比NVIDIA H100 LLM推理性能领先50%、训练时间快40%。针对中国市场,Gaudi 3将提供特殊版本,功耗最高限制在450W。Falcon Shores最初规划融合CPU、GPU,就像AMD Instinct MI300A,但后来改为纯GPU方案,融合设计则后续再说。 ... PC版: 手机版:

相关推荐

封面图片

英特尔下一代Falcon Shores GPU的TDP高达1500W 一开始就不考虑设计风冷

英特尔下一代Falcon Shores GPU的TDP高达1500W 一开始就不考虑设计风冷 访问:NordVPN 立减 75% + 外加 3 个月时长 另有NordPass密码管理器 Grace、Blackwell合体的GB200最高可达2700W,不过人家是两颗GPU加一颗CPU。AMD最新的Instinct MI350X最高功耗为750W,Intel自己的Gaudi 3则是最高900W。Intel刚刚确认将迅速放弃代号Ponte Vecchio的第一代GPU Max加速卡,后续推广重点转向Gaudi 2/3独立加速器,以及这个Falcon Shores。Falcon Shores最初的规划是同时集成x86 CPU、Xe GPU,就像AMD Instinct MI300A那样打造成融合式APU,后者整合了24个Zen4 CPU核心、CDNA3 GPU核心。可惜,因为软硬件设计难度都太大,Intel暂时放弃了这种方案,Falcon Shores回归纯GPU方案,预计明年发布,还是叫做GPU Max。据说,Falcon Shore交给了Gaudi团队操刀设计。 ... PC版: 手机版:

封面图片

Intel Gaudi 3 AI加速器可以卖给中国 但挥刀砍掉一半

Intel Gaudi 3 AI加速器可以卖给中国 但挥刀砍掉一半 Intel声称,它相比上代拥有2倍的FP8 AI算力、4倍的BF16 AI算力、2倍的网络功耗为600W带宽、1.5倍的内存带宽,而对比NVIDIA H100 LLM推理性能领先50%、训练时间快40%。Gaudi 3的首发版本编号HL-325L,OAM形态,已经出货,功耗900W,风冷散热。它的中国特供版将在6月份推出,编号HL-328,功耗减半至450W,HMB内存、缓存、解码器等完全保留,但既然功耗少了一半,算力差不多也会被腰斩。10月份还会有个液冷版本HL-335,支持双路并联,但不能卖给中国,也没有特供版。PCIe扩展卡形态将在9月份出货,风冷,满血版编号HL-338,,中国特供版编号HL-388,功耗又被限制在450W。通用基板形态的编号为HLB-325,但具体规格和出货时间暂时不详。说起来,NVIDIA是最早做中国特供版AI加速器的,也就是H800、A800,后来也被禁售了,最近又拿出了H20、L20、L2、RTX 4090D,都能卖。AMD也设计了特供版Instinct MI309、MI388X,但都被美政府以算力还是太强为由给打回,而年底将要升级到MI350。 ... PC版: 手机版:

封面图片

Intel发布Gaudi 3 AI加速器:4倍性能提升、无惧1800亿参数大模型

Intel发布Gaudi 3 AI加速器:4倍性能提升、无惧1800亿参数大模型 数据显示,预计到2030年,全球半导体市场规模将达1万亿美元,AI是主要推动力,不过在2023年,只有10%的企业能够成功将其AIGC项目产品化。Intel的最新解决方案,有望帮助企业应对推广AI项目时所面临的挑战,加速实现AIGC落地商用。Intel现有的Gaudi 2诞生于2022年5月,并于2023年7月正式引入中国,拥有极高的深度学习性能、效率,以及极高的性价比。它采用台积电7nm工艺制造,集成24个可编程的Tenor张量核心(TPC)、48MB SRAM缓存、21个10万兆内部互连以太网接口(ROCEv2 RDMA)、96GB HBM2E高带宽内存(总带宽2.4TB/s)、多媒体引擎等,支持PCIe 4.0 x16,最高功耗800W,可满足大规模语言模型、生成式AI模型的强算力需求。新一代的Gaudi 3面向AI训练和推理,升级为台积电5nm工艺,带来了2倍的FP8 AI算力、4倍的BF16 AI算力、2倍的网络带宽、1.5倍的内存带宽。对比NVIDIA H100,它在流行LLM上的推理性能领先50%、训练时间快40%。Gaudi 3预计可大幅缩短70亿和130亿参数Llama2模型、1750亿参数GPT-3模型的训练时间。在Llama 70亿/700亿参数、Falcon 1800亿参数大型语言模型上,Gaudi 3的推理吞吐量和能效也都非常出色。Gaudi 3提供多种灵活的形态,包括OAM兼容夹层卡、通用基板、PCIe扩展卡,满足不同应用需求。Gaudi 3提供开放的、基于社区的软件,以及行业标准以太网网络,可以灵活地从单个节点扩展到拥有数千个节点的集群、超级集群和超大集群,支持大规模的推理、微调和训练。Gaudi 3 AI加速器具备高性能、经济实用、节能、可快速部署等优点,能够充分满足复杂性、成本效益、碎片化、数据可靠性、合规性等AI应用需求。Gaudi 3将于2024年第二季度面向OEM厂商出货,包括戴尔、慧与、联想、超威等。目前,Intel Gaudi加速器的行业客户及合作伙伴有NAVER、博世(Bosch)、IBM、Ola/Krutrim、NielsenIQ、Seekr、IFF、CtrlS Group、Bharti Airtel、Landing AI、Roboflow、Infosys,等等。此外,Intel还宣布联合Anyscale、DataStax、Domino、Hugging Face、KX Systems、MariaDB、MinIO、Qdrant、RedHat、Redis、SAP、SAS、VMware、Yellowbrick、Zilliz等伙伴,共同创建一个开放平台,助力企业推动AI创新。该计划旨在开发开放的、多供应商的AIGC系统,通过RAG(检索增强生成)技术,提供一流的部署便利性、性能和价值。初始阶段,Intel将利用至强处理器、Gaudi加速器,推出AIGC流水线的参考实现,发布技术概念框架,并继续加强Intel Tiber开发者云平台基础设施的功能。 ... PC版: 手机版:

封面图片

世界第一AI芯片“WSE-3”升级4万亿晶体管、90万核心

世界第一AI芯片“WSE-3”升级4万亿晶体管、90万核心 2021年的第二代WSE-2升级台积电7nm工艺,面积不变还是46225平方毫米,晶体管增至2.6万亿个,核心数增至85万个,缓存扩至40GB,内存带宽20PB/s,互连带宽220Pb/s。如今的第三代WSE-3再次升级为台积电5nm工艺,面积没说但应该差不多,毕竟需要一块晶圆才能造出一颗芯片,不可能再大太多了。晶体管数量继续增加达到惊人的4万亿个,AI核心数量进一步增加到90万个,缓存容量达到44GB,外部搭配内存容量可选1.5TB、12TB、1200TB。乍一看,核心数量、缓存容量增加的不多,但性能实现了飞跃,峰值AI算力高达125PFlops,也就是每秒12.5亿亿次浮点计算,堪比顶级超算。它可以训练相当于GPT-4、Gemini十几倍的下一代AI大模型,能在单一逻辑内存空间内存储24万亿参数,无需分区或者重构。用它来训练1万亿参数大模型的速度,相当于用GPU训练10亿参数。四颗并联,它能在一天之内完成700亿参数的调教,而且支持最多2048路互连,一天就可以完成Llama 700亿参数的训练。WSE-3的具体功耗、价格没公布,根据上代的情况看应该在200多万美元。 ... PC版: 手机版:

封面图片

一万亿晶体管GPU将到来 台积电董事长撰文解读

一万亿晶体管GPU将到来 台积电董事长撰文解读 值得一提的是,本文署名作者MARK LIU(刘德音)和H.-S. PHILIP WONG,其中刘德音是台积电董事长。H.-S Philip Wong则是斯坦福大学工程学院教授、台积电首席科学家。在这里,我们将此文翻译出来,以飨读者。以下为文章正文:1997 年,IBM 深蓝超级计算机击败了国际象棋世界冠军Garry Kasparov。这是超级计算机技术的突破性演示,也是对高性能计算有一天可能超越人类智能水平的首次展示。在接下来的10年里,我们开始将人工智能用于许多实际任务,例如面部识别、语言翻译以及推荐电影和商品。再过十五年,人工智能已经发展到可以“合成知识”(synthesize knowledge)的地步。生成式人工智能,如ChatGPT和Stable Diffusion,可以创作诗歌、创作艺术品、诊断疾病、编写总结报告和计算机代码,甚至可以设计与人类制造的集成电路相媲美的集成电路。人工智能成为所有人类事业的数字助手,面临着巨大的机遇。ChatGPT是人工智能如何使高性能计算的使用民主化、为社会中的每个人带来好处的一个很好的例子。所有这些奇妙的人工智能应用都归功于三个因素:高效机器学习算法的创新、训练神经网络的大量数据的可用性,以及通过半导体技术的进步实现节能计算的进步。尽管它无处不在,但对生成式人工智能革命的最后贡献却没有得到应有的认可。在过去的三十年里,人工智能的重大里程碑都是由当时领先的半导体技术实现的,没有它就不可能实现。Deep Blue 采用 0.6 微米和 0.35 微米节点芯片制造技术的混合实现;赢得 ImageNet 竞赛的深度神经网络并开启了当前机器学习时代的设备使了用 40 纳米技术打造的芯片;AlphaGo 使用 28 纳米技术征服了围棋游戏;ChatGPT 的初始版本是在采用 5 纳米技术构建的计算机上进行训练的。;ChatGPT 的最新版本由使用更先进的4 纳米技术的服务器提供支持。所涉及的计算机系统的每一层,从软件和算法到架构、电路设计和设备技术,都充当人工智能性能的乘数。但可以公平地说,基础晶体管器件技术推动了上面各层的进步。如果人工智能革命要以目前的速度继续下去,它将需要半导体行业做出更多贡献。十年内,它将需要一个 1 万亿晶体管的 GPU,也就是说,GPU 的设备数量是当今典型设备数量的 10 倍。AI 模型大小的不断增长,让人工智能训练所需的计算和内存访问在过去五年中增加了几个数量级。例如,训练GPT-3需要相当于一整天每秒超过 50 亿次的计算操作(即 5,000 petaflops /天),以及 3 万亿字节 (3 TB) 的内存容量。新的生成式人工智能应用程序所需的计算能力和内存访问都在持续快速增长。我们现在需要回答一个紧迫的问题:半导体技术如何跟上步伐?从集成器件到集成小芯片自集成电路发明以来,半导体技术一直致力于缩小特征尺寸,以便我们可以将更多晶体管塞进缩略图大小的芯片中。如今,集成度已经上升了一个层次;我们正在超越 2D 缩放进入3D 系统集成。我们现在正在将许多芯片组合成一个紧密集成、大规模互连的系统。这是半导体技术集成的范式转变。在人工智能时代,系统的能力与系统中集成的晶体管数量成正比。主要限制之一是光刻芯片制造工具被设计用于制造不超过约 800 平方毫米的 IC,即所谓的光罩限制(reticle limit)。但我们现在可以将集成系统的尺寸扩展到光刻掩模版极限之外。通过将多个芯片连接到更大的中介层(一块内置互连的硅片)上,我们可以集成一个系统,该系统包含的设备数量比单个芯片上可能包含的设备数量要多得多。例如,台积电的CoWoS(chip-on-wafer-on-substrate )技术就可以容纳多达六个掩模版区域的计算芯片,以及十几个高带宽内存(HBM)芯片。CoWoS是台积电的硅晶圆上芯片先进封装技术,目前已在产品中得到应用。示例包括 NVIDIA Ampere 和 Hopper GPU。当中每一个都由一个 GPU 芯片和六个高带宽内存立方体组成,全部位于硅中介层上。计算 GPU 芯片的尺寸大约是芯片制造工具当前允许的尺寸。Ampere有540亿个晶体管,Hopper有800亿个。从 7 纳米技术到更密集的 4 纳米技术的转变使得在基本相同的面积上封装的晶体管数量增加了 50%。Ampere 和 Hopper 是当今大型语言模型 ( LLM ) 训练的主力。训练 ChatGPT 需要数万个这样的处理器。HBM 是对 AI 日益重要的另一项关键半导体技术的一个例子:通过将芯片堆叠在一起来集成系统的能力,我们在台积电称之为SoIC (system-on-integrated-chips) 。HBM 由控制逻辑 IC顶部的一堆垂直互连的 DRAM 芯片组成。它使用称为硅通孔 (TSV) 的垂直互连来让信号通过每个芯片和焊料凸点以形成存储芯片之间的连接。如今,高性能 GPU广泛使用 HBM 。展望未来,3D SoIC 技术可以为当今的传统 HBM 技术提供“无凸块替代方案”(bumpless alternative),在堆叠芯片之间提供更密集的垂直互连。最近的进展表明,HBM 测试结构采用混合键合技术堆叠了 12 层芯片,这种铜对铜连接的密度高于焊料凸块所能提供的密度。该存储系统在低温下粘合在较大的基础逻辑芯片之上,总厚度仅为 600 µm。对于由大量运行大型人工智能模型的芯片组成的高性能计算系统,高速有线通信可能会很快限制计算速度。如今,光学互连已被用于连接数据中心的服务器机架。我们很快就会需要基于硅光子学的光学接口,并与 GPU 和 CPU 封装在一起。这将允许扩大能源效率和面积效率的带宽,以实现直接的光学 GPU 到 GPU 通信,这样数百台服务器就可以充当具有统一内存的单个巨型 GPU。由于人工智能应用的需求,硅光子将成为半导体行业最重要的使能技术之一。迈向万亿晶体管 GPU如前所述,用于 AI 训练的典型 GPU 芯片已经达到了标线区域极限(reticle field limit)。他们的晶体管数量约为1000亿个。晶体管数量增加趋势的持续将需要多个芯片通过 2.5D 或 3D 集成互连来执行计算。通过 CoWoS 或 SoIC 以及相关的先进封装技术集成多个芯片,可以使每个系统的晶体管总数比压缩到单个芯片中的晶体管总数大得多。如AMD MI 300A 就是采用这样的技术制造的。AMD MI300A 加速处理器单元不仅利用了CoWoS,还利用了台积电的 3D 技术SoIC。MI300A结合了 GPU 和 CPU内核,旨在处理最大的人工智能工作负载。GPU为AI执行密集的矩阵乘法运算,而CPU控制整个系统的运算,高带宽存储器(HBM)统一为两者服务。采用 5 纳米技术构建的 9 个计算芯片堆叠在 4 个 6 纳米技术基础芯片之上,这些芯片专用于缓存和 I/O 流量。基础芯片和 HBM 位于硅中介层之上。处理器的计算部分由 1500 亿个晶体管组成。我们预测,十年内,多芯片 GPU 将拥有超过 1 万亿个晶体管。我们需要在 3D 堆栈中将所有这些小芯片连接在一起,但幸运的是,业界已经能够快速缩小垂直互连的间距,从而增加连接密度。而且还有足够的空间容纳更多。我们认为互连密度没有理由不能增长一个数量级,甚至更高。GPU 的节能性能趋势那么,所有这些创新的硬件技术如何提高系统的性能呢?如果我们观察一个称为节能性能的指标的稳步改进,我们就可以看到服务器 GPU 中已经存在的趋势。EEP 是系统能源效率和速度(the energy efficiency and speed of a system)的综合衡量标准。过去 15 年来,半导体行业的能效性能每两年就提高了三倍左右。我们相信这一趋势将以历史速度持续下去。它将受到多方面创新的推动,包括新材料、器件和集成技术、极紫外(EUV)光刻、电路设计、系统架构设计以及所有这些技术元素的共同优化等。特别是,EEP 的增加将通过我们在此讨论的... PC版: 手机版:

封面图片

导入CDNA3架构、192GB记忆体,AMD新资料中心GPU来了

导入CDNA3架构、192GB记忆体,AMD新资料中心GPU来了 相较于上一代产品MI250X,MI300X的运算单元数量增加幅度逼近40%(304个对上220个),记忆体容量达到1.5倍(192 GB HBM3对上128 GB HBM2e),记忆体最大频宽为1.7倍(5.3 TB/s对上3.2 TB/s);在资料型别上,MI300X可支援FP8与稀疏(sparsity)等数学计算,种种新增与强化特色,皆为了支撑AI与高效能运算类型的工作负载而来。 生成式 AI 就绪 英特尔发布第五代至强可扩展处理器 第五代英特尔 ® 至强 ® 可扩展处理器的核心数量增加至 64 个,配备了高达 320MB 的 L3 缓存和 128MB 的 L2 缓存。不论单核性能还是核心数量,它相比以往的至强都有了明显提升。在最终性能指标上,与上代产品相比,在相同功耗下平均性能提升 21%, 内存带宽提升高达 16%, 三级缓存容量提升到了原来的近 3 倍。;更为重要的是,第五代至强 ® 可扩展处理器的每个内核均具备 AI 加速功能,完全有能力处理要求严苛的 AI 工作负载。与上代相比,其训练性能提升多达 29%, 推理能力提升高达 42%。

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人