AMD 5年提升芯片能效30倍 今年已提升6.8倍

AMD5年提升芯片能效30倍今年已提升6.8倍CPU、显卡不仅要提升性能,能效也是一个关键点,不然功耗、发热越来越大,不利于环保,AMD去年提出了一个小目标,在2025年之前的5年内要将芯片的能效提升30倍,现在他们公布了进展,今年为止已经提升了6.8倍。AMD日前发布了2021年CSR企业社会责任报告,谈到了AMD在供应链、员工多样性、可持续发展等方面的进展,其中一个重要内容就是提升芯片的能效,这也是在绿色环保、减少碳排放。在这个目标下,AMD提出了30x25的计划,也是从2020到2025年的5年时间里,将处理器及显卡的能效提升30倍。根据AMD的进展,2021这一年中能效就提升了3.9倍,截止2022年中,这个目标变成了6.8倍,未来还会继续提升,毕竟AMD后面还有5nm、4nm及3nm的CPU及显卡,2025年之前还来得及。如果实现了30倍能效提升,特别是全行业要是都能做到AMD的水平,那么带来的效益也是惊人的,AMD表示如果全球所有AI和HPC服务器都做到了30倍能效提升,那么2021到2025年间可以节约510亿度电力,相当于62亿美元,或者是6亿颗树木生长10年带来的碳收益。PC版:https://www.cnbeta.com/articles/soft/1307715.htm手机版:https://m.cnbeta.com/view/1307715.htm

相关推荐

封面图片

苏姿丰演讲公布AMD目标:3年内实现能效提升100倍

苏姿丰演讲公布AMD目标:3年内实现能效提升100倍在获奖后的演讲中,苏姿丰重点提到,AMD正在全力冲刺30x25目标,也就是到2025年将计算能效提升30倍,而到了2026-2027年,AMD将把计算能效提升100倍!这一速度,将远超行业平均水平。处理器、显卡等计算产品的能耗越来越高,AMD早在2014年就设定了名为25x20的目标,也就是到2020年将产品能效提升25倍,最终超额做到了31.7倍。随后,AMD就立下了30x25的新目标,明年就能顺利实现。苏姿丰指出,眼下提升计算产品能效的最大障碍就是AI大模型训练、微调所需的庞大算力,往往离不开成千上万的GPU加速器,以及成千上万兆瓦的电力,而且还在急剧膨胀。为此,AMD将多管齐下,从产品架构、制造工艺、封装技术、互连技术等方面提升能效,比如3nmGAA全环绕栅极工艺,比如2.5D/3D混合封装,等等。她指出,InstinctMI300X就是高能效的典型代表,包含1530亿个晶体管,分为12颗小芯片、24颗共192GBHBM3内存芯片。再比如处理器,2024年的第四代EPYC,对比1984年的AM286(Intel80286的克隆版本),40年间,制造工艺从1.5微米进步到6/5纳米,单颗芯片变成13颗小芯片,晶体管从13.4万个增加到900亿个。核心线程数从1/1个增加到96/192个,频率从20MHz提高到3.5GHz,缓存从16MB增加到486MB,内核面积从49平方毫米增加到1240平方毫米。...PC版:https://www.cnbeta.com.tw/articles/soft/1432194.htm手机版:https://m.cnbeta.com.tw/view/1432194.htm

封面图片

AMD公布疯狂芯片提效计划 用能效挑战英伟达会成功吗?

AMD公布疯狂芯片提效计划用能效挑战英伟达会成功吗?而在获奖后的演讲中,苏姿丰透露了AMD未来三年的计划,一个充满野心的计划:AMD正在努力实现2025年将计算能效提高到2020年的30倍的计划,而在这个计划之后,还有在2027年将能效提高到100倍(相对于2020年)的目标。图源:AMD计算能效,简单来说就是指计算机在执行计算任务时,利用能源的有效程度,虽然在各种算力、核心数等性能参数面前,计算能效看起来不太起眼,实质上却是核心性能、功耗管理、制程工艺等技术的体现。更高的计算能效,能够让计算机系统在运行时有着更高的效率,早在2014年,AMD就曾经设定过一个名为“25x20”的计划,希望用6年时间将AMD的处理器、显卡等产品的能效提高25倍。这个计划的结果,就是我们现在所熟知的Zen架构和RDNA架构,凭借两个架构的出色表现,AMD在2020年不仅完成了既定的目标,还超额做到了31.77倍的能效提升。AMD为何一直将计算能效提升作为核心目标之一?首先,我们从目前的AI运算需求出发,看看计算能效提升会带来什么?狂奔的超级计算中心众所周知,AI已经成为当前半导体业界最核心、最庞大的需求,这个需求正在驱动着半导体战车的车轮滚滚向前。前段时间,作为AI时代的领航者,半导体公司英伟达的市值就一度达到2.62万亿美元,甚至超过了德国所有上市公司的市值总和。让英伟达市值暴涨的唯一原因,就是其在AI计算硬件领域的统治级实力,目前全球最顶尖的专业计算卡均出自英伟达,除了主流的H100、H200等芯片外,英伟达前段时间又发布了GB100和GB200,仅单个芯片的算力就相当于以前的一台超级计算机。当然,强大的算力背后并不是没有代价的,H100的TDP高达700W,而最新的GB200的TDP更是高达2700W。而英伟达提供的官方方案中,单个GB200NVL72服务器就可以搭载最高36个GB200芯片,仅芯片本身的功耗就最高可达97200W,并且不包括配套的其他硬件功耗。这还仅仅是开始,一个超级计算中心往往由多个服务器单元组合而成,亚马逊此前就公布了一项计划,预计采购2万个GB200用来组建一个全新的服务器集群。而走在AI研究最前沿的微软和OpenAI,前段时间更是公布了一个雄心勃勃的计划——星际之门。据悉,该计划共分为五个阶段,目的是建造一个人类历史上最大的超级计算中心,预计整个计划的投资将达到1150亿美元,建成后将需要数十亿瓦的电力支持。这座‘星际之门’建成后,仅以耗电量算就足以在全球各大城市中排名前20,更何况它还只是众多计算中心的一员而已。实际上,早在去年开始,就有多份报告指出计算中心的耗电量正在猛增,并且一度导致美国部分城市出现电力供应不足的问题。从能源角度来说,一座发电厂从选址到建成运行,往往需要数年的时间,如果遇到环保组织的抗议,还有可能拖延更久。在能源问题短时间内无法解决的情况下,提高计算能效就是唯一的方法,通过更高效地利用每瓦时电力来维持更大规模的AI模型训练。实际上,有人认为OpenAI的ChatGPT-5进展缓慢,很大程度上就是受限于算力规模无法大幅度提升。苏姿丰在演讲中也提到,提高计算能效可以更好地解决能源与算力之间的矛盾,并且让超级计算中心可以被部署到更多的地方。在一些AI企业的构想中,未来每一座城市都应该拥有自己的超级AI中心,负责处理智能驾驶、城市安全等各方面的AI需求。想要达成这个目标,同时不显著增加城市的能源负担,更高计算能效的显卡就是唯一的解决方案。而且,计算能效也直接关系到AI计算的成本,只有将AI计算的成本降到更低,大面积普及AI才可能成为现实。AMD的疯狂计划在英伟达的刺激下,作为在GPU领域唯一能够与英伟达抗衡的企业,AMD一直在加速推进旗下AI芯片的研发与上市进度,并先后发布了MI300、V80等多款专业运算卡。据报道,为了能够加速AI芯片的进度,苏姿丰对GPU团队进行重组,抽调大量人员支持AI芯片的研发,以至于下一代的AMD消费级显卡发布计划受到严重影响,比如取消原定的旗舰产品发布计划,仅保留中端显卡的发布计划等。在集中科研力量后,AMD目前的进展速度飞快,最新的MI300X在性能上已经超过英伟达的H100,大多42petaFLOPs,并且拥有高达192GB的显存,功耗却与H100相当,仅为750W。凭借优异的计算能效,MI300X成功引起了市场的关注,微软、OpenAI、亚马逊等科技巨头都提交了采购需求,让AMD在计算领域的芯片出货量暴增。根据相关机构预测,2024年AMD的AI芯片出货量可能达到英伟达出货量的10%,并在明年增长至30%。据苏姿丰介绍,为了能够提高芯片的计算能效,AMD研发了多项新的技术,比如2.5D/3D混合封装技术。利用这项技术,AMD可以在封装面积不变的前提下给芯片塞入更多的晶体管和内存,降低芯片与内存交换数据的消耗,有效提升每瓦时的计算性能。此外,AMD还将改进芯片架构,推出能效更高的新一代架构,预计最快将于2025年发布,并实现25x30(2025年计算能效提升30倍)的目标。不过,想要实现27x100(2027年计算能效提升100倍)的目标,还需要在诸多领域做出提升,仅靠制程工艺升级和架构升级恐怕还不太够。不得不说,AMD的这个计划非常疯狂,一旦成功,那么AMD将有望再次与英伟达并肩而行。那么英伟达的反应是什么?其实英伟达很早就给出了回应,早前发布的GB200就是答案,这颗史无前例的算力怪物在计算能效方面的提升同样瞩目。据英伟达的介绍,GB200的推理性能是H100的30倍,计算能效是H100的25倍(综合考虑算力、功耗等参数后的结果)。显然,英伟达的脚步也并不慢,在接下来的3年时间里,不管AMD能否完成疯狂的百倍计划,AI芯片市场都会迎来一场革新。...PC版:https://www.cnbeta.com.tw/articles/soft/1432463.htm手机版:https://m.cnbeta.com.tw/view/1432463.htm

封面图片

日本富士通宣布下代超级CPU“Monaka” 能效2倍于Intel/AMD

日本富士通宣布下代超级CPU“Monaka”能效2倍于Intel/AMD富士通A64FX采用台积电7nm工艺制造,集成87.86亿个晶体管,Arm架构,集成52个核心,包括48个计算核心(分为四组每组8MB二级缓存)、4个结构管理核心,主频2.2GHz,并集成HBM2高带宽内存。富岳超算一共用了近16万颗A64FX处理器,总核心数量多达7630848个。去年11月,富士通就曾披露,将设计更先进的处理器,采用台积电2nm工艺,预计2026年推出。现在,富士通官方宣布,下代超级处理器代号“Monaka”(日本点心最中/もなか),依然基于Arm架构指令集(可能Armv9或更高),重点提升能效。Monaka现定于2027年推出,号称对比届时的竞品,应用性能可领先1.7倍,能效可领先2倍,包括Intel、AMD的方案。同时,它的应用潜力和范围也会更广,包括超大规模运算、HPC高性能计算、AI人工智能、数据分析等等。不过,官方未公开制造工艺、核心数量等细节。日本也会基于富士通Monaka,打造下一代超算,暂时名为FugakuNext,日本理化学研究所正在进行设计评估。...PC版:https://www.cnbeta.com.tw/articles/soft/1349173.htm手机版:https://m.cnbeta.com.tw/view/1349173.htm

封面图片

IBM模拟AI芯片登Nature:能效提升14倍 语音识别速度提升7倍

IBM模拟AI芯片登Nature:能效提升14倍语音识别速度提升7倍一、利用PCM存储数据,模拟芯片解决AI技术高能耗问题AI相关技术在飞速发展的同时,也面临着能源消耗的问题。为了提升能源效率,IBM来自世界各地实验室的研究人员共同研发了这款模拟AI芯片。据称,在两个AI推理实验中,该芯片都像同类数字芯片一样可靠地执行任务,但其完成任务的速度更快,能耗更低。IBM称,其研究人员一直都在深耕模拟AI芯片领域。2021年,其团队就发布了一款名为Fusion的模拟芯片,利用PCM设备的存储能力和物理属性,更高效地实现人工神经网络。传统计算机基于冯·诺依曼结构——一种将程序指令存储器和数据存储器合并在一起的电脑设计概念结构,每次计算都将数据从DRAM(动态随机存取存储器)内存传输到CPU,导致工作速度受到实际限制,永远无法实现CPU的真正计算能力,这被称为“冯·诺依曼瓶颈”。▲当每次计算将数据从DRAM内存传输到CPU时,传统计算机就会出现瓶颈(图源:IBM官网)通过利用PCM设备的物理特性,模拟芯片可以克服冯·诺依曼瓶颈,在存储数据的同一位置执行计算。由于没有数据移动,它可以在很短的时间内执行任务,并且消耗的能源更少。▲模拟芯片通过在存储数据的地方执行计算来克服瓶颈(图源:IBM官网)例如,将64位数据从DRAM移动到CPU会消耗1-2nJ(纳焦)能量,而在PCM设备上执行只需消耗1-100fJ(飞焦),是前者的1万至200万分之一。当扩展到数十亿次操作时,所节省的能源是巨大的。此外,当设备不活动时,PCM不会消耗电力,即使断电数据也将保留10年。二、采用全新设计方式,14nm芯片可编码3500万个PCM虽然IBM早在两年前便以研发出了模拟芯片,并尝试将其用于提升AI计算性能,但Fusion芯片一次只能访问一个PCM设备,对速度和能效的提升并不显著。IBM本次发布的这款芯片采用了新的设计方式,利用34个大型PCM阵列,结合了数模转换输入、模拟外围电路、模数转换输出和大规模并行二维网格路由。每个14nm芯片上可编码3500万个PCM,在每权重对应2-PCMs的方案中,可容纳1700万个参数。将这些芯片组合在一起,便能够像数字芯片一样有效地处理真实AI用例的实验。▲IBM模拟AI芯片的显微照片(图源:论文插图)上图中,图a显示了芯片的显微照片,突出显示了34个PCM阵列模块的2D网格,每个模块都有自己的512×2,048PCM交叉阵列。PCM器件集成在14nm前端电路上方的后端布线中(图b),可通过电脉冲调整窄底电极上晶体相(高导电性)和非晶相(高电阻性)材料的相对体积来编码模拟电导状态。对PCM器件进行编程时采用并行编程方案(图c),这样同一行中的所有512个权值都会同时更新。该研发团队采用的方法是优化主导深度学习计算的MAC(乘积累加运算)。通过读取电阻式NVM(非易失性存储器)设备阵列的行,然后沿列收集电流,团队证明可以在存储器内执行MAC,无需在芯片的存储器和计算区域之间或跨芯片移动权重。三、精确度不减,语音识别速度提升7倍、大模型运行能效提升14倍为了验证芯片的有效性,该团队设计了两个实验对其进行测试。他们从MLPerf中选择了两个神经网络模型,分别是语音唤醒和语音转文本模型。MLPerf由斯坦福、哈佛等顶尖学术机构发起成立的,权威性最大、影响力最广的国际AI性能基准测试。第一个实验围绕关键词语音检测展开。该团队提出了一种卷积神经网络架构,并在包含12个关键字的谷歌语音命令数据集上进行训练。团队采用了架构更简单的FC(全连接)网络结构,最终达到了86.14%的识别精度,且提交速度比MLPerf目前最佳情况快7倍。该模型使用硬件感知训练在GPU上进行训练,然后部署在团队的模拟AI芯片上。▲端到端语音唤醒任务相关图表(图源:论文插图)第二个实验围绕语音转文本展开,规模更大。团队使用5个模拟AI芯片组合在一起,运行RNN-T(循环神经网络转换器)模型,以逐个字母地转录语音内容。该系统包含5个芯片上1.4亿个PCM设备的4500万个权重,能够采集人们说话的音频并以非常接近数字硬件设置的精度进行转录。该实验最终达到9.258%的单词错误率,能量效率达6.704TOPS/W(万亿次操作每秒/瓦),比MLPerf目前最佳能效提高了14倍。▲模拟AI芯片在RNN-T模型上表现出的性能相关图表(图源:论文插图)与第一个实验不同,这个实验并不完全是端到端的,这意味着它确实需要一些片外数字计算。IBM称,这里涉及的额外计算很少,如果在芯片上实现,最终的能效仍然高于当今市场上的产品。结语:模拟AI芯片能否成为下一个趋势继2021年推出第一款模拟芯片Fusion后,IBM于近日发布了专攻AI的模拟芯片,速度、能效均比传统数字芯片大幅提升,准确率也保持高水准。传统芯片受制于“冯·诺依曼瓶颈”,而模拟芯片可以打破这一桎梏,为AI技术带来新的生命力。未来,模拟芯片市场能否得到进一步发展,我们会持续关注。来源:Nature、IBM官网...PC版:https://www.cnbeta.com.tw/articles/soft/1379447.htm手机版:https://m.cnbeta.com.tw/view/1379447.htm

封面图片

五部门:目标到 2025 年底合成氨行业能效标杆水平以上产能占比提升至 30%

五部门:目标到2025年底合成氨行业能效标杆水平以上产能占比提升至30%国家发展改革委等部门印发《合成氨行业节能降碳专项行动计划》,目标到2025年底,合成氨行业能效标杆水平以上产能占比提升至30%,能效基准水平以下产能完成技术改造或淘汰退出。2024—2025年,通过实施合成氨行业节能降碳改造和用能设备更新形成节能量约500万吨标准煤、减排二氧化碳约1300万吨。到2030年底,合成氨行业能效标杆水平以上产能占比进一步提高,能源资源利用效率达到国际先进水平,生产过程绿电、绿氢消费占比明显提升,合成氨行业绿色低碳发展取得显著成效。

封面图片

传AMD Zen 5/6架构IPC均有超过10%提升 分别于2024年至2025年到来

传AMDZen5/6架构IPC均有超过10%提升分别于2024年至2025年到来近日,Moore'sLawisDead带来了Zen5架构和Zen6架构的新消息。Zen5架构内核代号为“Nirvana”,CCD芯片则称为“Eldora”,在桌面平台上,Zen5架构对应的产品就是Ryzen8000系列,代号为“GraniteRidge”。根据描述,Zen5架构的IPC相比Zen4架构会有10-15%+的提升。在Zen5架构上,可以看到AMD推出了更为先进的分支预测单元。此外,AMD还会带来16核心的CCX设计,有可能对应的是Zen5c架构,专注于密度、性能/功率的优化,以实现更高的能效。桌面平台上,代号“GraniteRidge”的Ryzen8000系列最多仍然是16核心32线程,同时保持与AM5平台兼容。传闻Zen5架构里,4nm工艺将用于代号GraniteRidge的CPU和一些APU,更为先进的3nm工艺可能用于代号Turin的服务器CPU和特定的APU。Zen6架构内核代号为“Morpheus”,预计会在2025年下半年到来,可能会有3nm和2nm版本。其IPC相比Zen5架构会有进一步提升,预计为10%+。AMD将会带来新的CCX设计,为32核心,应该对应的使Zen6c架构。同时AMD将引入新的封装技术,将CCD堆叠到IOD上面。...PC版:https://www.cnbeta.com.tw/articles/soft/1387335.htm手机版:https://m.cnbeta.com.tw/view/1387335.htm

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人