GPU巨头,拼什么?

GPU巨头,拼什么?在本文中,我们将深入探讨他们的架构。让我们剥开层层,看看有什么新内容、它们有什么共同点,以及这些对普通用户意味着什么。01GPU整体结构:从上到下让我们从本文的一个重要方面开始——这不是性能比较。相反,我们正在研究GPU内部的所有内容是如何排列的,检查规格和数据,以了解AMD、英特尔和NVIDIA在设计图形处理器时所采用的方法差异。我们将首先了解使用我们正在研究的架构的最大可用芯片的整体GPU组成。需要强调的是,英特尔的产品并不针对与AMD或NVIDIA相同的市场,因为它在很大程度上是一款中档图形处理器。这三者的尺寸不仅彼此不同,而且与使用先前架构的类似芯片也有很大不同。所有这些分析纯粹是为了了解这三个处理器的底层到底是什么。在分解每个GPU的基本部分(着色器核心、光线追踪功能、内存层次结构以及显示和媒体引擎)之前,我们将检查整体结构。一、AMDNavi31按字母顺序排列,第一个出现的是AMD的Navi31,这是他们迄今为止发布的最大的RDNA3芯片。与Navi21相比,我们可以看到他们之前的高端GPU的组件数量明显增长......着色器引擎(SE:ShaderEngines)容纳的计算单元(CU:ComputeUnits)较少,为16个,而不是200个,但现在总共有6个SE,比以前多了两个。这意味着Navi31拥有多达96个CU,总共配备6144个流处理器(SP:StreamProcessors)。AMD已经对RDNA3的SP进行了全面升级,我们将在后面讨论。每个着色器引擎还包含一个处理光栅化(rasterization)的专用单元、一个用于三角形(triangle)设置的图元引擎(primitiveengine)、32个渲染输出单元(ROP:renderoutputunits)和两个256kBL1缓存。最后一个方面现在大小增加了一倍,但每个SE的ROP计数仍然相同。AMD也没有对光栅器(rasterizer)和原始引擎(primitiveengines)进行太大改变——所称的50%改进是针对整个芯片进行的,因为它的SE比Navi21芯片多了50%。然而,SE处理指令的方式发生了变化,例如更快地处理多个绘制命令(multipledrawcommands)和更好地管理管道阶段(pipelinestages),这应该会减少CU在继续执行另一个任务之前需要等待的时间。最明显的变化是在11月发布之前引起最多谣言和八卦的变化——GPU封装的小芯片方法。凭借在该领域多年的经验,AMD选择这样做在某种程度上是合乎逻辑的,但这完全是出于成本/制造原因,而不是性能。我们将在本文后面更详细地讨论这一点,所以现在我们只关注哪些部分在哪里。在Navi31中,最终层缓存的内存控制器及其相关分区位于主处理器(GCD,GraphicsComputeDie)周围的单独小芯片(称为MCD或MemoryCacheDies)中。由于需要提供更多数量的SE,AMD也将MC数量增加了50%,因此GDDR6全局内存的总总线宽度现在为384位。这次InfinityCache总量减少了(96MBvs128MB),但更大的内存带宽抵消了这一点。二、英特尔ACM-G10接下来是Intel和ACM-G10芯片(以前称为DG2-512)。虽然这不是英特尔生产的最大的GPU,但它是他们最大的消费类图形芯片。该框图是相当标准的排列,尽管看起来更类似于NVIDIA的而不是AMD的。共有8个渲染切片(RenderSlices),每个渲染切片包含4个Xe核心,总共512个矢量引擎(VectorEngines:相当于AMD的流处理器和NVIDIA的CUDA核心)。每个渲染切片中还包含一个基元单元、光栅器、深度缓冲处理器、32个纹理单元和16个ROP。乍一看,这款GPU似乎相当大,因为256个TMU和128个ROP比RadeonRX6800或GeForceRTX2080中的数量还要多。然而,AMD的RNDA3芯片拥有96个计算单元,每个计算单元有128个ALU,而ACM-G10总共有32个Xe核心,每个核心有128个ALU。因此,仅就ALU数量而言,英特尔Alchemist驱动的GPU的大小是AMD的三分之一。但正如我们稍后将看到的,ACM-G10的大部分芯片都交给了不同的数字处理单元。与英特尔通过OEM供应商发布的首款AlchemistGPU相比,该芯片在组件数量和结构排列方面具备成熟架构的所有特征。三、英伟达AD102我们完成了对NVIDIAAD102不同布局的开场概述,这是他们第一个使用AdaLovelace架构的GPU。与它的前身AmpereGA102相比,它看起来并没有什么不同,只是大了很多。就所有意图和目的而言,确实如此。NVIDIA使用图形处理集群(GPU:GraphicsProcessingCluster)的组件层次结构,其中包含6个纹理处理集群(TPC:TextureProcessingClusters),每个集群包含2个流式多处理器(SM)。这种安排对于Ada来说并没有改变,但总数肯定已经改变了……在完整的AD102芯片中,GPC数量从7个增加到12个,因此现在总共有144个SM,总共有18432个CUDA核心。与Navi31中的6144个SP相比,这个数字似乎高得离谱,但AMD和NVIDIA对其组件的计数方式不同。虽然这大大简化了问题,但1个NVIDIASM相当于1个AMDCU——两者都包含128个ALU。因此,Navi31的尺寸是英特尔ACM-G10的两倍(仅ALU数量),而AD102的尺寸是英特尔ACM-G10的3.5倍。这就是为什么当芯片在规模上有如此明显的差异时,对它们进行任何直接的性能比较是不公平的。然而,一旦它们进入显卡、定价并上市,那么情况就不同了。但我们可以比较的是三个处理器中最小的重复部分。02着色器核心(ShaderCores):走进GPU的大脑从整个处理器的概述开始,现在让我们深入了解芯片的核心,看看处理器的基本数字处理部分:着色器核心。这三个制造商在描述他们的芯片时使用不同的术语和短语,特别是在概述图时。因此,在本文中,我们将使用我们自己的图像,具有常见的颜色和结构,以便更容易看出相同和不同之处。一、AMDRDNA3AMDGPU着色部分内最小的统一结构称为双计算单元(DCU:DoubleComputeUnit)。在某些文档中,它仍然称为工作组处理器(WGP:WorkgroupProcessor),而其他文档则将其称为计算单元对(CUP:ComputeUnitPair)。请注意,如果这些图中未显示某些内容(例如常量缓存、双精度单元),并不意味着它们不存在于体系结构中。在很多方面,整体布局和结构元素与RDNA2相比并没有太大变化。两个计算单元共享一些缓存和内存,每个计算单元包含两组32个流处理器(SP)。第3版的新增功能是,每个SP现在容纳的算术逻辑单元(ALU:arithmeticlogicunits)数量是以前的两倍。现在,每个CU有两组SIMD64单元,每个组有两个数据端口——一个用于浮点、整数和矩阵运算,另一个仅用于浮点和矩阵运算。AMD确实针对不同的数据格式使用单独的SP,RDNA3中的计算单元支持使用FP16、BF16、FP32、FP64、INT4、INT8、INT16和INT32值进行操作。使用SIMD64意味着每个线程调度程序可以在每个时钟周期发出一组64个线程(称为wavefront),或者可以共同发出两个32个线程的波前。AMD保留了与以前的RDNA架构相同的指令规则,因此这是由GPU/驱动程序处理的。另一个重要的新功能是AMD所谓的AI矩阵加速器的出现。与我们很快就会看到的Intel和NVIDIA的架构不同,它们并不充当单独的单元——所有矩阵运算都利用SIMD单元,并且任何此类计算(称为波矩阵乘法累加,WMMA:WaveMatrixMultiplyAccumulate)都将使用完整的64个ALU组。在撰写本文时,人工智能加速器的确切性质尚不清楚,但它可能只是与处理指令和涉及的大量数据相关的电路,以确保最大吞吐量。它很可能与NVIDIA的Hopper架构中的张量内存加速器具有类似的功能。与RDNA2相比,变化相对较小——较旧的架构还可以处理64个线程波前(又名Wave64),但这些是在...PC版:https://www.cnbeta.com.tw/articles/soft/1369821.htm手机版:https://m.cnbeta.com.tw/view/1369821.htm

相关推荐

封面图片

三星确认Exynos处理器继续使用AMD GPU

三星确认Exynos处理器继续使用AMDGPU2019年三星与AMD达成合作,获得了AMD的RDNA架构GPU授权,今年的Exynos2200处理器就使用了AMDGPU技术,还被称为安卓之光,结果实际表现翻车了,AMD强大的GPU性能优势也没展示出来。这次失利导致有消息称三星都会暂停自研Exynos处理器,而且前不久三星还跟高通达成了战略协议,专利授权延长5年到2030年底,明年的GalaxyS23旗舰机也会大量使用骁龙8系处理器。不过三星否认了Exynos停摆的消息,现在更进一步确认会继续跟AMD合作,负责GPU开发的三星副总裁SungboemPark表示,移动设备的GPU相比主机落后5年左右,通过与AMD的合作,三星可以将最新的游戏技术快速融入到Exynos2200移动处理器。今年的Exynos2200处理器的Xclipse920GPU拥有配备了6个计算单元、384个流处理器核心,RDNA2架构。下一代的Exynos2300应该会使用Xclipse930GPU,可能会上8个计算单元、512个流处理器核心,不确定是否升级为RNDA3架构,后者的能效会再提升50%,更利于移动平台。从三星的态度来看,Exynos安卓之光失利似乎也怪不得AMD的GPU头上,毕竟整体的能耗、发热问题也不是GPU不行,三星的工艺及自己的架构优化还是要背锅的。PC版:https://www.cnbeta.com/articles/soft/1308935.htm手机版:https://m.cnbeta.com/view/1308935.htm

封面图片

所有的AMD Ryzen 7000将配备RDNA 2 GPU单元 亮机播视频足够用

所有的AMDRyzen7000将配备RDNA2GPU单元亮机播视频足够用在今年早些时候的Computex2022上,AMD详细介绍了其Zen4架构。该公司透露,其Ryzen7000系列芯片将全部配备集成显卡,这与迄今为止RyzenCPU的标准不同。每个AMDRyzen7000处理器的I/O模内将有两个RDNA2计算单元。这意味着在你没有APU的情况下也不需要买一块单独的独立GPU来显示。PC版:https://www.cnbeta.com/articles/soft/1320911.htm手机版:https://m.cnbeta.com/view/1320911.htm

封面图片

Intel 14代酷睿的媒体单元将独立运行 不需要GPU也能播视频

Intel14代酷睿的媒体单元将独立运行不需要GPU也能播视频下个月13代酷睿处理器发布之后,Intel明年会推出14代酷睿,代号MeteorLake,这一代在架构上会大改,首次使用多芯片整合封装,CPU部分是Intel4工艺制造,GPU部分是台积电5nm,还有SoC、IOE核心是台积电6nm工艺生产。伴随着Intel将不同的功能单元独立开来,这次14代酷睿还有个很小但很良心的改动,那就是媒体单元不再依赖于GPU,而是独立运行,没有核显也可以播放视频。以前的CPU难道就不能播放视频了?这倒不是,而是这次的改动将视频解码编码之类的功能转移到了一个单独的功能单元,因为之前Intel的媒体单元是放在GPU单元中。要知道,Intel有些处理器是没有核显或者禁用核显的,这样就会导致部分处理器的媒体功能上有缺失,比如禁用核显的F系列处理器就不能支持QuickSync转码技术,现在从GPU中独立出来是个很方便的升级。值得一提的是,Intel对新一代视频编码标准AV1很热心,千元级的A380独显在AV1视频转码上就大幅优于同级别的AMD及NVIDIA显卡,未来也有可能在14代酷睿的媒体单元中加入AV1支持,这对中低端处理器来说可以说很有帮助了。PC版:https://www.cnbeta.com/articles/soft/1310803.htm手机版:https://m.cnbeta.com/view/1310803.htm

封面图片

AMD专利揭示未来RDNA架构的独特"多芯片"GPU方法

AMD专利揭示未来RDNA架构的独特"多芯片"GPU方法AMD是在多芯片设计方面经验丰富的半导体公司之一,因为他们的InstinctMI200AI加速器系列率先采用了MCM设计,在单个封装上堆叠了多个芯片,如GPC(图形处理内核)、HBM堆栈和I/O芯片。该公司还率先在其最新的RDNA3架构上采用了MCM解决方案,如Navi31。然而,凭借这项新专利,AMD希望将这一理念转化为主流的"RDNA"架构,具体方法如下。该专利描述了芯片组利用的三种不同"模式",其区别在于如何分配资源并进行管理。该专利揭示了三种不同的模式,第一种是"单GPU"模式,这与现代GPU的功能非常相似。所有板载芯片将作为一个统一的处理单元,在协作环境中共享资源。第二种模式被称为"独立模式",在这种模式下,单个芯片将独立运行,通过专用的前端芯片负责为其相关的着色器引擎芯片调度任务。第三种模式是最有前景的,被称为"混合模式",在这种模式下,芯片既可以独立运行,也可以共存。它充分利用了统一处理和独立处理的优势,提供了可扩展性和高效的资源利用率。该专利没有透露AMD采用MCM设计的细节,因此我们无法评论AMD是否会决定采用专利中提到的想法。不过,从总体上讲,多芯片配置虽然可以提高性能和可扩展性,但生产起来却要复杂得多,需要高端设备和工艺,最终也会增加成本。以下是该专利对多芯片方法的描述:通过将GPU分成多个GPU芯片,处理系统可根据运行模式灵活、经济地配置活动GPU物理资源的数量。此外,可配置数量的GPU芯片被组装到单个GPU中,这样就可以使用少量的分带组装出具有不同数量GPU芯片的多个不同GPU,并且可以用实现不同技术世代的GPU芯片构建多芯片GPU。目前,AMD在消费级市场还没有合适的多GPU芯片解决方案。Navi31GPU在很大程度上仍是采用单GCD的单片设计,但承载无限缓存和内存控制器的MCD已被移至芯片组封装。随着下一代RDNA架构的推出,我们可以预见AMD将更加注重多芯片封装,多个GCD将拥有各自专用的着色器引擎块。AMD曾计划在RDNA4系列中采用Navi4X/Navi4C这样的GPU,但据说该计划已被取消,转而采用更主流的单片封装。...PC版:https://www.cnbeta.com.tw/articles/soft/1434814.htm手机版:https://m.cnbeta.com.tw/view/1434814.htm

封面图片

Exynos 2600 可能会采用三星内部 GPU

Exynos2600可能会采用三星内部GPU自Exynos2200以来,三星和AMD一直在合作将基于RDNA的GPU引入移动处理器。最新的Exynos2400还配备了RDNAGPU,合作伙伴关系甚至扩展到了Exynos1480的中端市场。然而,来自可靠业内人士和@OreXDA的传言表明Exynos2600将发生转变。两位爆料者都表示,三星可能会在其2026年旗舰芯片的图形处理器方面与AMD分道扬镳。相反,这家韩国巨头正在寻求开发自己的GPU架构,该架构将用于Exynos2600。关于Exynos2600的细节非常稀缺,特别是关于三星内部GPU的计划。——

封面图片

现在可以用GPU(显卡)开采TON

现在可以用GPU(显卡)开采TON我们已经告诉过你什么是挖矿。今天我们将讨论如何挖掘TONCoin。智能合约中还剩下5000万个硬币,如果你有强大的设备-欢迎!以前,您只能使用中央处理器单元(CPU挖掘)来挖掘TON。但是,一些业余爱好者通过了解如何在图形处理器单元(GPU挖掘)上进行挖掘,改进了该过程并使挖掘更有效。有什么不同?让我们从定义CPU和GPU开始。CPU(处理器)——是计算机的中央控制器。它负责后续任务。例如,对于以下操作链:1.打开“记事本”2.写点东西3.点击«保存»4.处理器将结果记录在硬盘上如您所见,这些是后续操作。GPU(显卡)有不同的作用。它负责重复操作。例如,当您在显示器上观看Youtube时,会发生一系列不可见的过程:每个像素都需要不断处理。图形处理器单元一遍又一遍地提供重复动作来制作图片。因此,GPU具有更大的带宽,并且提供比CPU高10倍的挖矿效率!TON挖矿是怎么回事?它采取了一些重要步骤:1.法院判决后,Telegram团队停止了TON区块链的开发,并将testnet2币转移到Proof-of-WorkGiver智能合约。每个拥有足够计算能力的人都可以挖掘这些智能合约的硬币。2.此后,该币在矿工中的受欢迎程度大幅上升,以至于@tonblockchain(继续致力于该项目的开源社区开发人员)投票将testnet2重命名为mainnet。显然,代币获得的价值等于购买采矿设备的费用,并被称为TONCoin。3.今天大多数矿工开始使用GPU,竞争加剧,因此挖矿变得更加复杂。例如,在过去的12周中,复杂性上升了10倍!为什么会增加?这一点是最有趣的!唯一的原因是越来越多的TON网络用户参与进来。他们积极投资采矿设备和电力。这真的很酷,因为相信这个项目的人将是收到硬币的人。注意力!检查项目的网站,在专门用于挖矿的更新部分中找到所有详细信息。这是一个链接:https://ton.org/mining你想开采TON吗?这是有关GPU挖掘的指南。P.S.亲爱的朋友们!我们尽最大努力使这段文字清楚。如果不是-我们期待收到您的评论。

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人