1530亿颗晶体管,AMD甩出最强AI芯片,单个GPU跑大模型-IT之家https://www.ithome.com/0/699/695.htm

None

相关推荐

封面图片

1530亿颗晶体管,AMD甩出最强AI芯片,单个GPU跑大模型#抽屉IT

封面图片

1530亿晶体管死磕NVIDIA AMD MIX300X加速卡功耗达750W

1530亿晶体管死磕NVIDIAAMDMIX300X加速卡功耗达750W根据AMD官方材料的备注信息,可以看到MI300X的功耗达到了惊人的750W!相比之下,当前这一代的MI250X典型功耗500W,峰值功耗560W,制造工艺则都是6nm。当下最火爆的NVIDIAA100制造工艺为7nm,SXM版本的功耗400W,PCIe版本的功耗250-300W。NVIDIAH100用上了最先进的4nm,PCIe版本功耗就有700W。AMD还有个MIX300A,号称全球首款面向HPC、AI的APU加速器,整合了24个Zen4CPU核心、CDNA3GPU核心、128GBHBM3内存,总计1460亿个晶体管,功耗不详,应该会比MI300X略低一些。...PC版:https://www.cnbeta.com.tw/articles/soft/1365657.htm手机版:https://m.cnbeta.com.tw/view/1365657.htm

封面图片

902亿晶体管谁敢比 AMD Zen4 IO内核首次揭秘

902亿晶体管谁敢比AMDZen4IO内核首次揭秘AMDZen4处理器无论消费级锐龙,还是服务器级霄龙,CCD部分都是台积电5nm工艺,最多8个核心。其中,锐龙有1-2个CCD,核心数6-16个;霄龙有2-12个CCD,核心数16-96个。IOD都是台积电6nm工艺,但锐龙、霄龙搭档的截然不同。锐龙这里的尺寸只有12.4x9.5=117.8平方毫米,大约33.7亿个晶体管。霄龙的则达到了24.8×15.6=386.88平方毫米,长度多出一倍,宽度多出三分之二,整体大了几乎2.3倍,晶体管数量则有大约110亿个,也是多了将近2.3倍。CCD、IOD都算上,Zen4锐龙处理器最多集成165亿个晶体管,霄龙则达到了恐怖的902亿个!IntelSapphireRapids第四代至强没公布有多少晶体管,但肯定没这么多。另外,Locuza_大神还给出了锐龙IOD的详细布局图标注,可以看到它只有两组GMI3/IFOP3互联端口,也就是只能连接最多2个CCD,最多16核心,不可能存在传说中的3个CCD、24核心。DDR5内存控制器是两组40-bit,其中32-bit给内存本身,另外8-bit用于ECC校验纠错。这就是说,所有的锐龙7000处理器都会支持DDR5ECC,但是否开启就看主板厂商的选择了。IOD中面积最大的自然是GPU相关,尽管只有两组CU单元、128个核心,但还有显示单元、编解码单元等。其他就是PCIe5.0控制器、IO输入输出单元、电源管理、安全控制器、音频DSP等等。...PC版:https://www.cnbeta.com.tw/articles/soft/1348011.htm手机版:https://m.cnbeta.com.tw/view/1348011.htm

封面图片

AMD"Zen 4"芯片、晶体管数量、缓存大小和延迟细节初步解析

AMD"Zen4"芯片、晶体管数量、缓存大小和延迟细节初步解析我们正在等待AMD详细介绍其新的"Zen4"微架构的技术文件,特别是所有重要的CPU核心前端和分支预测单元,这些单元为比上一代"Zen3"核心多出13%的IPC贡献了三分之二,虽然实物还没有出现,技术爱好者社区已经在解读Ryzen7000系列发布会上的图片。"Skyjuice"展示了"Zen4"内核的第一个注释,揭示了它的大型分支预测单元、扩大的微操作缓存、TLB、加载/存储单元以及能够支持AVX-512的双泵送256位FPU。该核心四分之一的芯片面积也被1MB的专用二级缓存所占用。Chiakokhua(又名退休工程师)发布了一张表格,详细介绍了各种缓存及其延迟,并与"Zen3"内核的缓存进行了比较。正如AMD的MarkPapermaster在Ryzen7000发布会上透露的那样,该公司已经将该核心的微操作缓存从4KB扩大到6.75KB。L1I和L1D缓存的大小仍为32KB;而L2缓存的大小增加了一倍。L2高速缓存的扩大略微增加了延迟,从12个周期增加到14个周期。共享L3高速缓存的延迟也增加了,从46个周期增加到50个周期。调度阶段的重新排序缓冲器(ROB)已经从256个条目扩大到320个条目。L1分支目标缓冲器(BTB)的大小从1KB增加到1.5KB。尽管晶体管数量较多,但Zen4的CCD比Zen3的CCD略小,这要归功于5纳米(TSMCN5工艺)制程的转换。新一代CCD的尺寸为70mm²,而"Zen3"的CCD尺寸为83mm²。Zen4"CCD的晶体管数量为65.7亿,比"Zen3"CCD及其41.5亿晶体管数量增加了58%。cIOD(客户端I/O芯片)有很大一部分创新。它建立在6纳米(台积电N6)节点上,与Ryzen5000系列处理器的cIOD所采用的GlobalFoundries12纳米节点相比,这是一个巨大的飞跃。它还吸收了Ryzen6000"Rembrandt"处理器的某些电源管理功能。除了DDR5内存控制器和一个PCI-ExpressGen5根复合体,这个CIOD还配备了一个基于RDNA2图形架构的iGPU。新的6纳米cIOD尺寸为124.7平方毫米,相比之下,Ryzen5000系列的cIOD略大124.9平方毫米。"Raphael"多芯片模块为6核和8核SKU配备一个CCD,为12核和16核SKU配备两个CCD。"Raphael"是在SocketAM5封装中构建的。据传,AMD正在为高性能笔记本平台准备一种薄BGA封装的"Raphael",它的代号为"DragonRange"。这些处理器将有各种45W、55W和65W的TDP选项,可以为高端游戏笔记本提供多种选择。PC版:https://www.cnbeta.com/articles/soft/1310445.htm手机版:https://m.cnbeta.com/view/1310445.htm

封面图片

一万亿晶体管GPU将到来 台积电董事长撰文解读

一万亿晶体管GPU将到来台积电董事长撰文解读值得一提的是,本文署名作者MARKLIU(刘德音)和H.-S.PHILIPWONG,其中刘德音是台积电董事长。H.-SPhilipWong则是斯坦福大学工程学院教授、台积电首席科学家。在这里,我们将此文翻译出来,以飨读者。以下为文章正文:1997年,IBM深蓝超级计算机击败了国际象棋世界冠军GarryKasparov。这是超级计算机技术的突破性演示,也是对高性能计算有一天可能超越人类智能水平的首次展示。在接下来的10年里,我们开始将人工智能用于许多实际任务,例如面部识别、语言翻译以及推荐电影和商品。再过十五年,人工智能已经发展到可以“合成知识”(synthesizeknowledge)的地步。生成式人工智能,如ChatGPT和StableDiffusion,可以创作诗歌、创作艺术品、诊断疾病、编写总结报告和计算机代码,甚至可以设计与人类制造的集成电路相媲美的集成电路。人工智能成为所有人类事业的数字助手,面临着巨大的机遇。ChatGPT是人工智能如何使高性能计算的使用民主化、为社会中的每个人带来好处的一个很好的例子。所有这些奇妙的人工智能应用都归功于三个因素:高效机器学习算法的创新、训练神经网络的大量数据的可用性,以及通过半导体技术的进步实现节能计算的进步。尽管它无处不在,但对生成式人工智能革命的最后贡献却没有得到应有的认可。在过去的三十年里,人工智能的重大里程碑都是由当时领先的半导体技术实现的,没有它就不可能实现。DeepBlue采用0.6微米和0.35微米节点芯片制造技术的混合实现;赢得ImageNet竞赛的深度神经网络并开启了当前机器学习时代的设备使了用40纳米技术打造的芯片;AlphaGo使用28纳米技术征服了围棋游戏;ChatGPT的初始版本是在采用5纳米技术构建的计算机上进行训练的。;ChatGPT的最新版本由使用更先进的4纳米技术的服务器提供支持。所涉及的计算机系统的每一层,从软件和算法到架构、电路设计和设备技术,都充当人工智能性能的乘数。但可以公平地说,基础晶体管器件技术推动了上面各层的进步。如果人工智能革命要以目前的速度继续下去,它将需要半导体行业做出更多贡献。十年内,它将需要一个1万亿晶体管的GPU,也就是说,GPU的设备数量是当今典型设备数量的10倍。AI模型大小的不断增长,让人工智能训练所需的计算和内存访问在过去五年中增加了几个数量级。例如,训练GPT-3需要相当于一整天每秒超过50亿次的计算操作(即5,000petaflops/天),以及3万亿字节(3TB)的内存容量。新的生成式人工智能应用程序所需的计算能力和内存访问都在持续快速增长。我们现在需要回答一个紧迫的问题:半导体技术如何跟上步伐?从集成器件到集成小芯片自集成电路发明以来,半导体技术一直致力于缩小特征尺寸,以便我们可以将更多晶体管塞进缩略图大小的芯片中。如今,集成度已经上升了一个层次;我们正在超越2D缩放进入3D系统集成。我们现在正在将许多芯片组合成一个紧密集成、大规模互连的系统。这是半导体技术集成的范式转变。在人工智能时代,系统的能力与系统中集成的晶体管数量成正比。主要限制之一是光刻芯片制造工具被设计用于制造不超过约800平方毫米的IC,即所谓的光罩限制(reticlelimit)。但我们现在可以将集成系统的尺寸扩展到光刻掩模版极限之外。通过将多个芯片连接到更大的中介层(一块内置互连的硅片)上,我们可以集成一个系统,该系统包含的设备数量比单个芯片上可能包含的设备数量要多得多。例如,台积电的CoWoS(chip-on-wafer-on-substrate)技术就可以容纳多达六个掩模版区域的计算芯片,以及十几个高带宽内存(HBM)芯片。CoWoS是台积电的硅晶圆上芯片先进封装技术,目前已在产品中得到应用。示例包括NVIDIAAmpere和HopperGPU。当中每一个都由一个GPU芯片和六个高带宽内存立方体组成,全部位于硅中介层上。计算GPU芯片的尺寸大约是芯片制造工具当前允许的尺寸。Ampere有540亿个晶体管,Hopper有800亿个。从7纳米技术到更密集的4纳米技术的转变使得在基本相同的面积上封装的晶体管数量增加了50%。Ampere和Hopper是当今大型语言模型(LLM)训练的主力。训练ChatGPT需要数万个这样的处理器。HBM是对AI日益重要的另一项关键半导体技术的一个例子:通过将芯片堆叠在一起来集成系统的能力,我们在台积电称之为SoIC(system-on-integrated-chips)。HBM由控制逻辑IC顶部的一堆垂直互连的DRAM芯片组成。它使用称为硅通孔(TSV)的垂直互连来让信号通过每个芯片和焊料凸点以形成存储芯片之间的连接。如今,高性能GPU广泛使用HBM。展望未来,3DSoIC技术可以为当今的传统HBM技术提供“无凸块替代方案”(bumplessalternative),在堆叠芯片之间提供更密集的垂直互连。最近的进展表明,HBM测试结构采用混合键合技术堆叠了12层芯片,这种铜对铜连接的密度高于焊料凸块所能提供的密度。该存储系统在低温下粘合在较大的基础逻辑芯片之上,总厚度仅为600µm。对于由大量运行大型人工智能模型的芯片组成的高性能计算系统,高速有线通信可能会很快限制计算速度。如今,光学互连已被用于连接数据中心的服务器机架。我们很快就会需要基于硅光子学的光学接口,并与GPU和CPU封装在一起。这将允许扩大能源效率和面积效率的带宽,以实现直接的光学GPU到GPU通信,这样数百台服务器就可以充当具有统一内存的单个巨型GPU。由于人工智能应用的需求,硅光子将成为半导体行业最重要的使能技术之一。迈向万亿晶体管GPU如前所述,用于AI训练的典型GPU芯片已经达到了标线区域极限(reticlefieldlimit)。他们的晶体管数量约为1000亿个。晶体管数量增加趋势的持续将需要多个芯片通过2.5D或3D集成互连来执行计算。通过CoWoS或SoIC以及相关的先进封装技术集成多个芯片,可以使每个系统的晶体管总数比压缩到单个芯片中的晶体管总数大得多。如AMDMI300A就是采用这样的技术制造的。AMDMI300A加速处理器单元不仅利用了CoWoS,还利用了台积电的3D技术SoIC。MI300A结合了GPU和CPU内核,旨在处理最大的人工智能工作负载。GPU为AI执行密集的矩阵乘法运算,而CPU控制整个系统的运算,高带宽存储器(HBM)统一为两者服务。采用5纳米技术构建的9个计算芯片堆叠在4个6纳米技术基础芯片之上,这些芯片专用于缓存和I/O流量。基础芯片和HBM位于硅中介层之上。处理器的计算部分由1500亿个晶体管组成。我们预测,十年内,多芯片GPU将拥有超过1万亿个晶体管。我们需要在3D堆栈中将所有这些小芯片连接在一起,但幸运的是,业界已经能够快速缩小垂直互连的间距,从而增加连接密度。而且还有足够的空间容纳更多。我们认为互连密度没有理由不能增长一个数量级,甚至更高。GPU的节能性能趋势那么,所有这些创新的硬件技术如何提高系统的性能呢?如果我们观察一个称为节能性能的指标的稳步改进,我们就可以看到服务器GPU中已经存在的趋势。EEP是系统能源效率和速度(theenergyefficiencyandspeedofasystem)的综合衡量标准。过去15年来,半导体行业的能效性能每两年就提高了三倍左右。我们相信这一趋势将以历史速度持续下去。它将受到多方面创新的推动,包括新材料、器件和集成技术、极紫外(EUV)光刻、电路设计、系统架构设计以及所有这些技术元素的共同优化等。特别是,EEP的增加将通过我们在此讨论的...PC版:https://www.cnbeta.com.tw/articles/soft/1425470.htm手机版:https://m.cnbeta.com.tw/view/1425470.htm

封面图片

1460亿晶体管超级APU AMD MI300下半年发布

1460亿晶体管超级APUAMDMI300下半年发布AMDCEO苏姿丰近日确认,InstinctMI300将在今年下半年正式推出。MI300采用多芯片、多IP整合封装设计,5nm先进制造工艺,晶体管数量多达疯狂的1460亿个!它同时集成CDNA3架构的GPU单元(具体核心数量未公开)、Zen4架构的24个CPU核心、大容量的InfinityCache无限缓存,还有8192-bit位宽、128GB容量的HBM3高带宽内存。技术方面支持第四代InfinityFabric总线、CXL3.0总线、统一内存架构、新的数学计算格式,号称AI性能比上代提升多达8倍,可满足百亿亿次计算需求。事实上,Intel一年前也宣布了类似的产品“FalconShores”(猎鹰海岸),称之为XPU,同时集成至强CPU、XeHPCGPU,以及下一代封装、内存、IO技术,号称能效、x86计算密度、内存容量与带宽都比现在提升5倍。不过,Intel的要到明年才会出货。...PC版:https://www.cnbeta.com.tw/articles/soft/1342445.htm手机版:https://m.cnbeta.com.tw/view/1342445.htm

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人