苏姿丰演讲公布AMD目标:3年内实现能效提升100倍

苏姿丰演讲公布AMD目标:3年内实现能效提升100倍在获奖后的演讲中,苏姿丰重点提到,AMD正在全力冲刺30x25目标,也就是到2025年将计算能效提升30倍,而到了2026-2027年,AMD将把计算能效提升100倍!这一速度,将远超行业平均水平。处理器、显卡等计算产品的能耗越来越高,AMD早在2014年就设定了名为25x20的目标,也就是到2020年将产品能效提升25倍,最终超额做到了31.7倍。随后,AMD就立下了30x25的新目标,明年就能顺利实现。苏姿丰指出,眼下提升计算产品能效的最大障碍就是AI大模型训练、微调所需的庞大算力,往往离不开成千上万的GPU加速器,以及成千上万兆瓦的电力,而且还在急剧膨胀。为此,AMD将多管齐下,从产品架构、制造工艺、封装技术、互连技术等方面提升能效,比如3nmGAA全环绕栅极工艺,比如2.5D/3D混合封装,等等。她指出,InstinctMI300X就是高能效的典型代表,包含1530亿个晶体管,分为12颗小芯片、24颗共192GBHBM3内存芯片。再比如处理器,2024年的第四代EPYC,对比1984年的AM286(Intel80286的克隆版本),40年间,制造工艺从1.5微米进步到6/5纳米,单颗芯片变成13颗小芯片,晶体管从13.4万个增加到900亿个。核心线程数从1/1个增加到96/192个,频率从20MHz提高到3.5GHz,缓存从16MB增加到486MB,内核面积从49平方毫米增加到1240平方毫米。...PC版:https://www.cnbeta.com.tw/articles/soft/1432194.htm手机版:https://m.cnbeta.com.tw/view/1432194.htm

相关推荐

封面图片

AMD 5年提升芯片能效30倍 今年已提升6.8倍

AMD5年提升芯片能效30倍今年已提升6.8倍CPU、显卡不仅要提升性能,能效也是一个关键点,不然功耗、发热越来越大,不利于环保,AMD去年提出了一个小目标,在2025年之前的5年内要将芯片的能效提升30倍,现在他们公布了进展,今年为止已经提升了6.8倍。AMD日前发布了2021年CSR企业社会责任报告,谈到了AMD在供应链、员工多样性、可持续发展等方面的进展,其中一个重要内容就是提升芯片的能效,这也是在绿色环保、减少碳排放。在这个目标下,AMD提出了30x25的计划,也是从2020到2025年的5年时间里,将处理器及显卡的能效提升30倍。根据AMD的进展,2021这一年中能效就提升了3.9倍,截止2022年中,这个目标变成了6.8倍,未来还会继续提升,毕竟AMD后面还有5nm、4nm及3nm的CPU及显卡,2025年之前还来得及。如果实现了30倍能效提升,特别是全行业要是都能做到AMD的水平,那么带来的效益也是惊人的,AMD表示如果全球所有AI和HPC服务器都做到了30倍能效提升,那么2021到2025年间可以节约510亿度电力,相当于62亿美元,或者是6亿颗树木生长10年带来的碳收益。PC版:https://www.cnbeta.com/articles/soft/1307715.htm手机版:https://m.cnbeta.com/view/1307715.htm

封面图片

AMD公布疯狂芯片提效计划 用能效挑战英伟达会成功吗?

AMD公布疯狂芯片提效计划用能效挑战英伟达会成功吗?而在获奖后的演讲中,苏姿丰透露了AMD未来三年的计划,一个充满野心的计划:AMD正在努力实现2025年将计算能效提高到2020年的30倍的计划,而在这个计划之后,还有在2027年将能效提高到100倍(相对于2020年)的目标。图源:AMD计算能效,简单来说就是指计算机在执行计算任务时,利用能源的有效程度,虽然在各种算力、核心数等性能参数面前,计算能效看起来不太起眼,实质上却是核心性能、功耗管理、制程工艺等技术的体现。更高的计算能效,能够让计算机系统在运行时有着更高的效率,早在2014年,AMD就曾经设定过一个名为“25x20”的计划,希望用6年时间将AMD的处理器、显卡等产品的能效提高25倍。这个计划的结果,就是我们现在所熟知的Zen架构和RDNA架构,凭借两个架构的出色表现,AMD在2020年不仅完成了既定的目标,还超额做到了31.77倍的能效提升。AMD为何一直将计算能效提升作为核心目标之一?首先,我们从目前的AI运算需求出发,看看计算能效提升会带来什么?狂奔的超级计算中心众所周知,AI已经成为当前半导体业界最核心、最庞大的需求,这个需求正在驱动着半导体战车的车轮滚滚向前。前段时间,作为AI时代的领航者,半导体公司英伟达的市值就一度达到2.62万亿美元,甚至超过了德国所有上市公司的市值总和。让英伟达市值暴涨的唯一原因,就是其在AI计算硬件领域的统治级实力,目前全球最顶尖的专业计算卡均出自英伟达,除了主流的H100、H200等芯片外,英伟达前段时间又发布了GB100和GB200,仅单个芯片的算力就相当于以前的一台超级计算机。当然,强大的算力背后并不是没有代价的,H100的TDP高达700W,而最新的GB200的TDP更是高达2700W。而英伟达提供的官方方案中,单个GB200NVL72服务器就可以搭载最高36个GB200芯片,仅芯片本身的功耗就最高可达97200W,并且不包括配套的其他硬件功耗。这还仅仅是开始,一个超级计算中心往往由多个服务器单元组合而成,亚马逊此前就公布了一项计划,预计采购2万个GB200用来组建一个全新的服务器集群。而走在AI研究最前沿的微软和OpenAI,前段时间更是公布了一个雄心勃勃的计划——星际之门。据悉,该计划共分为五个阶段,目的是建造一个人类历史上最大的超级计算中心,预计整个计划的投资将达到1150亿美元,建成后将需要数十亿瓦的电力支持。这座‘星际之门’建成后,仅以耗电量算就足以在全球各大城市中排名前20,更何况它还只是众多计算中心的一员而已。实际上,早在去年开始,就有多份报告指出计算中心的耗电量正在猛增,并且一度导致美国部分城市出现电力供应不足的问题。从能源角度来说,一座发电厂从选址到建成运行,往往需要数年的时间,如果遇到环保组织的抗议,还有可能拖延更久。在能源问题短时间内无法解决的情况下,提高计算能效就是唯一的方法,通过更高效地利用每瓦时电力来维持更大规模的AI模型训练。实际上,有人认为OpenAI的ChatGPT-5进展缓慢,很大程度上就是受限于算力规模无法大幅度提升。苏姿丰在演讲中也提到,提高计算能效可以更好地解决能源与算力之间的矛盾,并且让超级计算中心可以被部署到更多的地方。在一些AI企业的构想中,未来每一座城市都应该拥有自己的超级AI中心,负责处理智能驾驶、城市安全等各方面的AI需求。想要达成这个目标,同时不显著增加城市的能源负担,更高计算能效的显卡就是唯一的解决方案。而且,计算能效也直接关系到AI计算的成本,只有将AI计算的成本降到更低,大面积普及AI才可能成为现实。AMD的疯狂计划在英伟达的刺激下,作为在GPU领域唯一能够与英伟达抗衡的企业,AMD一直在加速推进旗下AI芯片的研发与上市进度,并先后发布了MI300、V80等多款专业运算卡。据报道,为了能够加速AI芯片的进度,苏姿丰对GPU团队进行重组,抽调大量人员支持AI芯片的研发,以至于下一代的AMD消费级显卡发布计划受到严重影响,比如取消原定的旗舰产品发布计划,仅保留中端显卡的发布计划等。在集中科研力量后,AMD目前的进展速度飞快,最新的MI300X在性能上已经超过英伟达的H100,大多42petaFLOPs,并且拥有高达192GB的显存,功耗却与H100相当,仅为750W。凭借优异的计算能效,MI300X成功引起了市场的关注,微软、OpenAI、亚马逊等科技巨头都提交了采购需求,让AMD在计算领域的芯片出货量暴增。根据相关机构预测,2024年AMD的AI芯片出货量可能达到英伟达出货量的10%,并在明年增长至30%。据苏姿丰介绍,为了能够提高芯片的计算能效,AMD研发了多项新的技术,比如2.5D/3D混合封装技术。利用这项技术,AMD可以在封装面积不变的前提下给芯片塞入更多的晶体管和内存,降低芯片与内存交换数据的消耗,有效提升每瓦时的计算性能。此外,AMD还将改进芯片架构,推出能效更高的新一代架构,预计最快将于2025年发布,并实现25x30(2025年计算能效提升30倍)的目标。不过,想要实现27x100(2027年计算能效提升100倍)的目标,还需要在诸多领域做出提升,仅靠制程工艺升级和架构升级恐怕还不太够。不得不说,AMD的这个计划非常疯狂,一旦成功,那么AMD将有望再次与英伟达并肩而行。那么英伟达的反应是什么?其实英伟达很早就给出了回应,早前发布的GB200就是答案,这颗史无前例的算力怪物在计算能效方面的提升同样瞩目。据英伟达的介绍,GB200的推理性能是H100的30倍,计算能效是H100的25倍(综合考虑算力、功耗等参数后的结果)。显然,英伟达的脚步也并不慢,在接下来的3年时间里,不管AMD能否完成疯狂的百倍计划,AI芯片市场都会迎来一场革新。...PC版:https://www.cnbeta.com.tw/articles/soft/1432463.htm手机版:https://m.cnbeta.com.tw/view/1432463.htm

封面图片

NVIDIA 144核心超级CPU揭秘:3.5倍能效碾压AMD 128核心

NVIDIA144核心超级CPU揭秘:3.5倍能效碾压AMD128核心GraceCPU二合一GraceCPU+HopperGPU二合一它通过NVLink-C2C芯片间互连总线,将两颗GraceCPU整合在一块基板上,彼此之间的双向带宽多达900GB/s。GraceCPU基于Armv9-A9.0架构、NeoverseV264位内核,以4个128-bit功能单元的方式配置了两组SIMD矢量指令集,一是SVE2(缩放矢量扩展第二版),二是NEON(高级SIMD)。它还支持LSE(大型系统扩展),可提供低成本的原子操作,改进CPU通信吞吐。NVIDIA声称,这种核心的能效,是如今服务器常见x86核心的2倍。GraceCPU单颗集成72个核心,互相通过3.2TB/s超高带宽的NVIDIA缩放一致性Fabric总线互连,而二合一的超级芯片上就是144个核心。每核心64KB一级指令缓存、64KB一级数据缓存、1MB二级缓存,一颗超级芯片的所有核心共享234MB三级缓存。内存整合封装了LPDDR5X,最大容量960GB,最高带宽1TB/s(每一颗500GB/s),还支持ECC。对比传统的八通道DDR5,这种设计不但带宽高出53%,单位功耗也只有1/8。对比海量带宽的HBM2e,单位成本只有1/3,容量则可达8倍。扩展支持八组PCIe5.0x16,总带宽1TB/s,还有用于管理的低速PCIe通道。性能方面,一颗超级芯片的FP64双精度峰值浮点性能可达7.1TFlops(每秒7.1万亿次计算),热设计功耗500W。NVIDIA对比了AMDZen3架构的霄龙776364核心,双路组成128核心,号称性能可领先1.5-2.5倍,能效可领先2.0-3.5倍!当然,AMD已经有了Zen4架构、最多96核心的霄龙9004系列,NVIDIAGrace依然还没有商用。...PC版:https://www.cnbeta.com.tw/articles/soft/1340283.htm手机版:https://m.cnbeta.com.tw/view/1340283.htm

封面图片

AMD苏姿丰最新发声:现在处于AI大周期开端

AMD苏姿丰最新发声:现在处于AI大周期开端AMD是全球第二大GPU厂商和主要的CPU厂商之一,在GPU领域市场仅次于英伟达,在CPU领域是英特尔的竞争对手。基于此,AMD也在打GPU+CPU的组合。苏姿丰表示,今年第四季度AMD将推出MI325X,将搭载HBM3E(高带宽内存)存储器,内存更大且计算能力有所提升。MI350系列以及MI400系列将在明后两年陆续推出。其中,MI300X、MI325X采用CDNA3架构,MI350将采用CDNA4架构,MI400将采用下一代CDNA架构。而在业内看来,这一速度与英伟达发布的计划看齐。“对人工智能的需求正加速增长,我们处于一个长达十年的人工智能大周期的开端。”苏姿丰表示,去年AMD推出了MI300X加速器,后续每年都会推出新的产品系列。具体来看,今年AMD将推出的MI325X有288GB高速HBM3E内存,内存带宽达每秒6TB。苏姿丰表示,单个搭载了8块MI325X加速器的服务器可以运行参数量高达1万亿的大模型,这是搭载英伟达H200的服务器可支撑的模型尺寸的两倍。2025年,AMD将推出的CDNA4架构将带来该公司史上最大的人工智能世代飞跃。MI350采用先进的3nm工艺制程,支持FP4(四位浮点数)和FP6数据类型。“当我们回顾过往,AMD推出CDNA3时,人工智能性能是上一代的8倍,而CDNA4性能将比CDNA3增长35倍。”苏姿丰表示,MI350的内存将是B200的1.5倍,性能提升了1.2倍。H200和B200都是英伟达的AI芯片,分别于2023年和2024年发布。其中,B200采用Blackwell架构,英伟达将两块B200CPU芯片和一颗GraceCPU芯片集成在一块GB200主板上,用互联技术组合以提高性能。据黄仁勋2日晚间透露,英伟达将“一年一更”,2025年推出BlackwellUltra,2026年推出新架构Rubin,2027年推出RubinUltra。同样“一年一更”的AMD将与英伟达直接对垒。“现在多数数据中心的处理器已使用超过5年了,许多企业希望更新数据中心的计算基础设施并新增AI能力。许多企业客户也希望在不增加GPU的情况下,进行通用计算和人工智能计算。AMD是唯一一家能向数据中心提供全套CPU和GPU网络解决方案的企业。”苏姿丰表示。苏姿丰称,AMD将推出第五代面向数据中心的EPYCCPU处理器,代号为Turin。该处理器基于Zen5架构,将于今年下半年推出,旗舰产品有192个Zen5核心和384个线程。苏姿丰介绍,当运行较小的大语言模型时Turin的性能优势突出。面向台式电脑,苏姿丰还发布了AMD锐龙9000系列桌面处理器,该系列采用Zen5架构,第一批产品有Ryzen99950X、Ryzen99900X、Ryzen79700X和Ryzen59600X,将于7月上市。此外,AMD推出了代号为StrixPoint的Ryzen(锐龙)AI300系列,面向笔记本电脑领域。据苏姿丰介绍,RyzenAI300系列采用Zen5架构,可以在本地运行AI工作负载。RyzenAI300系列搭载XDNAAINPU(神经处理单元),NPU算力可达50TOPS。该系列对比同行其他新的x86和ARMCPU,在单线程响应、内容创建、多任务处理方面有更高性能。黄仁勋此前抵达台北后,邀请了供应链伙伴鸿海集团、广达电脑、华硕、纬创等企业负责人聚餐。AMD也在发布环节拉起了“朋友圈”。苏姿丰邀请了微软、惠普、华硕、联想企业负责人上台分享了双方合作和AI应用内容。微软相关负责人在台上表示,Copilot(AI助手)+PC可以在PC本地和云上提供AI服务,这将有更快的响应时间和更低的成本,但这要求每台Copilot+PC设备能至少支持40TOPS算力。值得注意的是,面对英伟达在AI领域的强势,AMD等科技厂商近期都在试图增强自身的话语权。包括谷歌、Meta、AMD、英特尔、博通、思科、惠普在内的八家科技巨头不久前宣布成立一个新的行业组织,即超加速器链接推广小组(UALinkPromoterGroup),意在制定行业标准,指导数据中心内AI加速器芯片之间连接组件的发展。“在很短的时间内,科技行业已经接受了AI和HPC揭示的挑战。在追求效率与性能提升的过程中,加速器,尤其是GPU的互连,需要一个全面的视角。”超以太网联盟主席JMetz说。...PC版:https://www.cnbeta.com.tw/articles/soft/1433384.htm手机版:https://m.cnbeta.com.tw/view/1433384.htm

封面图片

IBM模拟AI芯片登Nature:能效提升14倍 语音识别速度提升7倍

IBM模拟AI芯片登Nature:能效提升14倍语音识别速度提升7倍一、利用PCM存储数据,模拟芯片解决AI技术高能耗问题AI相关技术在飞速发展的同时,也面临着能源消耗的问题。为了提升能源效率,IBM来自世界各地实验室的研究人员共同研发了这款模拟AI芯片。据称,在两个AI推理实验中,该芯片都像同类数字芯片一样可靠地执行任务,但其完成任务的速度更快,能耗更低。IBM称,其研究人员一直都在深耕模拟AI芯片领域。2021年,其团队就发布了一款名为Fusion的模拟芯片,利用PCM设备的存储能力和物理属性,更高效地实现人工神经网络。传统计算机基于冯·诺依曼结构——一种将程序指令存储器和数据存储器合并在一起的电脑设计概念结构,每次计算都将数据从DRAM(动态随机存取存储器)内存传输到CPU,导致工作速度受到实际限制,永远无法实现CPU的真正计算能力,这被称为“冯·诺依曼瓶颈”。▲当每次计算将数据从DRAM内存传输到CPU时,传统计算机就会出现瓶颈(图源:IBM官网)通过利用PCM设备的物理特性,模拟芯片可以克服冯·诺依曼瓶颈,在存储数据的同一位置执行计算。由于没有数据移动,它可以在很短的时间内执行任务,并且消耗的能源更少。▲模拟芯片通过在存储数据的地方执行计算来克服瓶颈(图源:IBM官网)例如,将64位数据从DRAM移动到CPU会消耗1-2nJ(纳焦)能量,而在PCM设备上执行只需消耗1-100fJ(飞焦),是前者的1万至200万分之一。当扩展到数十亿次操作时,所节省的能源是巨大的。此外,当设备不活动时,PCM不会消耗电力,即使断电数据也将保留10年。二、采用全新设计方式,14nm芯片可编码3500万个PCM虽然IBM早在两年前便以研发出了模拟芯片,并尝试将其用于提升AI计算性能,但Fusion芯片一次只能访问一个PCM设备,对速度和能效的提升并不显著。IBM本次发布的这款芯片采用了新的设计方式,利用34个大型PCM阵列,结合了数模转换输入、模拟外围电路、模数转换输出和大规模并行二维网格路由。每个14nm芯片上可编码3500万个PCM,在每权重对应2-PCMs的方案中,可容纳1700万个参数。将这些芯片组合在一起,便能够像数字芯片一样有效地处理真实AI用例的实验。▲IBM模拟AI芯片的显微照片(图源:论文插图)上图中,图a显示了芯片的显微照片,突出显示了34个PCM阵列模块的2D网格,每个模块都有自己的512×2,048PCM交叉阵列。PCM器件集成在14nm前端电路上方的后端布线中(图b),可通过电脉冲调整窄底电极上晶体相(高导电性)和非晶相(高电阻性)材料的相对体积来编码模拟电导状态。对PCM器件进行编程时采用并行编程方案(图c),这样同一行中的所有512个权值都会同时更新。该研发团队采用的方法是优化主导深度学习计算的MAC(乘积累加运算)。通过读取电阻式NVM(非易失性存储器)设备阵列的行,然后沿列收集电流,团队证明可以在存储器内执行MAC,无需在芯片的存储器和计算区域之间或跨芯片移动权重。三、精确度不减,语音识别速度提升7倍、大模型运行能效提升14倍为了验证芯片的有效性,该团队设计了两个实验对其进行测试。他们从MLPerf中选择了两个神经网络模型,分别是语音唤醒和语音转文本模型。MLPerf由斯坦福、哈佛等顶尖学术机构发起成立的,权威性最大、影响力最广的国际AI性能基准测试。第一个实验围绕关键词语音检测展开。该团队提出了一种卷积神经网络架构,并在包含12个关键字的谷歌语音命令数据集上进行训练。团队采用了架构更简单的FC(全连接)网络结构,最终达到了86.14%的识别精度,且提交速度比MLPerf目前最佳情况快7倍。该模型使用硬件感知训练在GPU上进行训练,然后部署在团队的模拟AI芯片上。▲端到端语音唤醒任务相关图表(图源:论文插图)第二个实验围绕语音转文本展开,规模更大。团队使用5个模拟AI芯片组合在一起,运行RNN-T(循环神经网络转换器)模型,以逐个字母地转录语音内容。该系统包含5个芯片上1.4亿个PCM设备的4500万个权重,能够采集人们说话的音频并以非常接近数字硬件设置的精度进行转录。该实验最终达到9.258%的单词错误率,能量效率达6.704TOPS/W(万亿次操作每秒/瓦),比MLPerf目前最佳能效提高了14倍。▲模拟AI芯片在RNN-T模型上表现出的性能相关图表(图源:论文插图)与第一个实验不同,这个实验并不完全是端到端的,这意味着它确实需要一些片外数字计算。IBM称,这里涉及的额外计算很少,如果在芯片上实现,最终的能效仍然高于当今市场上的产品。结语:模拟AI芯片能否成为下一个趋势继2021年推出第一款模拟芯片Fusion后,IBM于近日发布了专攻AI的模拟芯片,速度、能效均比传统数字芯片大幅提升,准确率也保持高水准。传统芯片受制于“冯·诺依曼瓶颈”,而模拟芯片可以打破这一桎梏,为AI技术带来新的生命力。未来,模拟芯片市场能否得到进一步发展,我们会持续关注。来源:Nature、IBM官网...PC版:https://www.cnbeta.com.tw/articles/soft/1379447.htm手机版:https://m.cnbeta.com.tw/view/1379447.htm

封面图片

AMD苏姿丰:摩尔定律未死 但推进已放慢

AMD苏姿丰:摩尔定律未死但推进已放慢苏姿丰在接受巴伦周刊(Barron's)采访时表示,她不认为摩尔定律已死,她认为摩尔定律已放慢,必须以不同行动延续,获得摩尔定律的能效和能源效益。至于“摩尔定律放慢”是否部分是因为晶圆价格的关系,苏姿丰表示,晶体管成本、以及从密度与整体耗能降低获得的改善程度,每一代都在降低,但AMD仍不断前进,正在从事许多3纳米制程的工作,也已放眼2纳米制程,AMD将持续运用小芯片(Chiplet)这类架构,试着绕过摩尔定律的一些挑战。摩尔定律是否已经失效,是近年来半导体产业最常被提及的议题。然而2004年90纳米推出之后,历经65纳米、45纳米等制程微缩,至2012年的22纳米为止,仍然符合摩尔定律。但22纳米到2015年进入14纳米,至今再进入10纳米或7纳米,摩尔定律的推进已经明显放慢。去年,英伟达发布了新一代AdaLovelace架构GPU,由于价格调涨引发用户质疑。对此英伟达CEO黄仁勋表示,“摩尔定律已死”,是公司不得不涨价的原因。...PC版:https://www.cnbeta.com.tw/articles/soft/1358151.htm手机版:https://m.cnbeta.com.tw/view/1358151.htm

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人