[整理]k_zer0s老哥对Groq的LPU为什么能有这么快的推理速度做了相对详细的解释:

[整理]k_zer0s老哥对Groq的LPU为什么能有这么快的推理速度做了相对详细的解释: Groq的LPU在处理请求和响应方面,速度超越了Nvidia的GPU。 不同于Nvidia GPU需要依赖高速数据传输,Groq的LPU在其系统中没有采用高带宽存储器(HBM)。它使用的是SRAM,其速度比GPU所用的存储器快约20倍。 鉴于AI的推理计算相较于模型训练需要的数据量远小,Groq的LPU因此更节能。在执行推理任务时,它从外部内存读取的数据更少,消耗的电量也低于Nvidia的GPU。 LPU的工作原理与GPU截然不同。它采用了时序指令集计算机(Temporal Instruction Set Computer)架构,这意味着它无需像使用高带宽存储器(HBM)的GPU那样频繁地从内存中加载数据。这一特点不仅有助于避免HBM短缺的问题,还能有效降低成本。 如果在AI处理场景中采用Groq的LPU,可能就无需为Nvidia GPU配置特殊的存储解决方案。LPU并不像GPU那样对存储速度有极高要求。Groq公司宣称,其技术能够通过其强大的芯片和软件,在AI任务中取代GPU的角色。 来源:

相关推荐

封面图片

AI推理速度提升超10倍 Groq LPU能否取代英伟达GPU?

AI推理速度提升超10倍 Groq LPU能否取代英伟达GPU? 推理速度比GPU快10倍,功耗仅1/10据介绍,Groq的大模型推理芯片是全球首个LPU(Language Processing Unit)方案,是一款基于全新的TSA 架构的Tensor Streaming Processor (TSP) 芯片,旨在提高机器学习和人工智能等计算密集型工作负载的性能。虽然Groq的LPU并没有采用更本高昂的尖端制程工艺,而是选择了14nm制程,但是凭借自研的TSA 架构,Groq LPU 芯片具有高度的并行处理能力,可以同时处理数百万个数据流,并该芯片还集成了230MB容量的SRAM来替代DRAM,以保证内存带宽,其片上内存带宽高达80TB/s。根据官方的数据显示,Groq的LPU芯片的性能表现相当出色,可以提供高达1000 TOPS (Tera Operations Per Second) 的计算能力,并且在某些机器学习模型上的性能表现可以比常规的 GPU 和 TPU 提升10到100倍。Groq表示,基于其LPU芯片的云服务器在Llama2或Mistreal模型在计算和响应速度上远超基于NVIDIA AI GPU的ChatGPT,其每秒可以生成高达500个 token。相比之下,目前ChatGPT-3.5的公开版本每秒只能生成大约40个token。由于ChatGPT-3.5主要是基于NVIDIA的GPU,也就是说,Groq LPU芯片的响应速度达到了NVIDIA  GPU的10倍以上。Groq表示,相对于其他云平台厂商的大模型推理性能,基于其LPU芯片的云服务器的大模型推理性能最终实现了比其他云平台厂商快18倍。另外,在能耗方面,NVIDIAGPU需要大约10到30焦耳才能生成响应中的tokens,而Groq LPU芯片仅需1到3焦耳,在推理速度大幅提升10倍的同时,其能耗成本仅有NVIDIAGPU的十分之一,这等于是性价比提高了100倍。Groq公司在演示中展示了其芯片的强大性能,支持Mistral AI的Mixtral8x7B SMoE,以及Meta的Llama2的7B和70B等多种模型,支持使用4096字节的上下文长度,并可直接体验Demo。不仅如此,Groq还喊话各大公司,扬言在三年内超越NVIDIA。目前该公司的LPU推理芯片在第三方网站上的售价为2万多美元,低于NVIDIA H100的2.5-3万美元。资料显示,Groq 是一家成立于2016年人工智能硬件初创公司,核心团队来源于谷歌最初的张量处理单元(TPU)工程团队。Groq 创始人兼CEO Jonathan Ross是谷歌TPU项目的核心研发人员。该公司硬件工程副总裁Jim Miller 曾是亚马逊云计算服务AWS设计算力硬件的负责人,还曾在英特尔领导了所有 Pentium II 工程。目前该公司筹集了超过 6200 万美元。为何采用大容量SRAM?Groq LPU芯片与大多数其他初创公司和现有的AI处理器有着截然不同的时序指令集计算机(Temporal Instruction Set Computer)架构,它被设计为一个强大的单线程流处理器,配备了专门设计的指令集,旨在利用张量操作和张量移动,使机器学习模型能够更有效地执行。该架构的独特之处在于执行单元、片内的SRAM内存和其他执行单元之间的交互。它无需像使用HBM(高带宽内存)的GPU那样频繁地从内存中加载数据。Groq 的神奇之处不仅在于硬件,还在于软件。软件定义的硬件在这里发挥着重要作用。Groq 的软件将张量流模型或其他深度学习模型编译成独立的指令流,并提前进行高度协调和编排。编排来自编译器。它提前确定并计划整个执行,从而实现非常确定的计算。“这种确定性来自于我们的编译器静态调度所有指令单元的事实。这使我们无需进行任何激进的推测即可公开指令级并行性。芯片上没有分支目标缓冲区或缓存代理,”Groq 的首席架构师 Dennis Abts 解释道。Groq LPU芯片为了追求性能最大化,因此添加了更多SRAM内存和执行块。SRAM全名为“静态随机存取存储器”(Static Random-Access Memory)是随机存取存储器的一种。所谓的“静态”,是指这种存储器只要保持通电,里面储存的数据就可以恒常保持。相对之下,动态随机存取存储器(DRAM)里面所储存的数据则需要周期性地更新。自SRAM推出60多年来,其一直是低延迟和高可靠性应用的首选存储器,事实上,对于 AI/ML 应用来说,SRAM 不仅仅具有其自身的优势。SRAM 对于 AI 至关重要,尤其是嵌入式 SRAM,它是性能最高的存储器,可以将其直接与高密度逻辑核心集成在一起。目前SRAM也是被诸多CPU集成在片内(更靠近CPU计算单元),作为CPU的高速缓存,使得CPU可以更直接、更快速的从SRAM中获取重要的数据,无需去DRAM当中读取。只不过,当前旗舰级CPU当中的SRAM容量最多也仅有几十个MB。Groq之所以选择使用大容量的 SRAM来替代DRAM 内存的原因主要有以下几点:1、SRAM 内存的访问速度比 DRAM 内存快得多,这意味着 LPU 芯片更快速地处理数据,从而提高计算性能。2、SRAM 内存没有 DRAM 内存的刷新延迟,这意味着LPU芯片也可以更高效地处理数据,减少延迟带来的影响。3、SRAM 内存的功耗比 DRAM 内存低,这意味着LPU芯片可以更有效地管理能耗,从而提高效率。但是,对于SRAM来说,其也有着一些劣势:1、面积更大:在逻辑晶体管随着CMOS工艺持续微缩的同时,SRAM的微缩却十分的困难。事实上,早在 20nm时代,SRAM 就无法随着逻辑晶体管的微缩相应地微缩。2、容量小:SRAM 的容量比 DRAM 小得多,这是因为每个bit的数据需要更多的晶体管来存储,再加上SRAM的微缩非常困难,使得相同面积下,SRAM容量远低于DRAM等存储器。这也使得SRAM在面对需要存储大量数据时的应用受到了限制。3、成本高:SRAM 的成本比 DRAM要高得多,再加上相同容量下,SRAM需要更多的晶体管来存储数据,这也使得其成本更高。总的来说,虽然SRAM 在尺寸、容量和成本等方面具有一些劣势,这些劣势限制了其在某些应用中的应用,但是 SRAM 的访问速度比 DRAM 快得多,这使得它在某些计算密集型应用中表现得非常出色。Groq LPU 芯片采用的大容量 SRAM 内存可以提供更高的带宽(高达80TB/s)、更低的功耗和更低的延迟,从而提高机器学习和人工智能等计算密集型工作负载的效率。那么,与目前AI GPU当中所搭载的 HBM 内存相比,Groq LPU 芯片集成的 SRAM 内存又有何优势和劣势呢?Groq LPU 芯片的 SRAM 内存容量虽然有230MB,但是相比之下AI GPU 中的 HBM 容量通常都有数十GB(比如NVIDIA H100,其集成了80GB HBM),这也意味着LPU 芯片可能无法处理更大的数据集和更复杂的模型。相同容量下,SRAM的成本也比HBM更高。不过,与HBM 相比,Groq LPU 芯片的所集成的 SRAM 的仍然有着带宽更快(NVIDIA H100的HBM带宽仅3TB/s)、功耗更低、延迟更低的优势。能否替代NVIDIA H00?虽然Groq公布的数据似乎表明,其LPU芯片的推理速度达到了NVIDIA GPU的10倍以上,并且能耗成本仅是它十分之一,等于是性价比提高了100倍。但是,Groq并且明确指出其比较的是NVIDIA的哪款GPU产品。由于目前NVIDIA最主流的AI GPU是H100,因此,我们就拿NVIDIA H100来与Groq LPU来做比较。由于Groq LPU只有230MB的片上SRAM来作为内存,因此,如果要运行Llama-2 70b模型,即使将Llama 2 70b量化到INT8精度,仍然需要70GB左右的内存。即使完全忽略内存消耗,也需要305张Groq LPU加速卡才够用。如果考虑到内存消耗,可能需要572张Groq LPU加速卡。官方数据显示,Groq LPU的平均功耗为185W,即使不计算外围设备的功耗,572张Groq LPU加速卡的总功耗也高达105.8kW。假设一张Groq LPU加速卡的价格为2万美元,因此,购买572张卡的成本高达1144万美元(规模采购价格应该可以更低)。根据人工智能科学家贾扬清分享的数据显示,目前,数据中心每月每千瓦的平均价格约为20美元,这意味着572张Groq LPU加速卡每年的电费为105.8*200*12=25.4万美元。贾扬清还表示,使用4张NVIDIA H100加速卡就可以实现572张Groq LPU一半的性能,这意味着一个8张H100的服务器的性能大致相当于572张Groq LPU。而8张H100加速卡... PC版: 手机版:

封面图片

英伟达发布下一代AI计算芯片 HGX H200 GPU

英伟达发布下一代AI计算芯片 HGX H200 GPU NVIDIA 今天宣布推出 NVIDIA HGX™ H200,为全球领先的 AI 计算平台带来强大动力。该平台基于 NVIDIA Hopper™ 架构,配备 NVIDIA H200 Tensor Core GPU 和高级内存,可处理生成 AI 和高性能计算工作负载的海量数据。 NVIDIA H200 是首款提供 HBM3e 的 GPU,HBM3e 是更快、更大的内存,可加速生成式 AI 和大型语言模型,同时推进 HPC 工作负载的科学计算。借助 HBM3e,NVIDIA H200 以每秒 4.8 TB 的速度提供 141GB 内存,与前一代 NVIDIA A100 相比,容量几乎翻倍,带宽增加 2.4 倍。 全球领先的服务器制造商和云服务提供商采用 H200 的系统预计将于 2024 年第二季度开始发货。

封面图片

Groq LPU人工智能推理芯片的运算表现可与主流厂商媲美

Groq LPU人工智能推理芯片的运算表现可与主流厂商媲美 一家人工智能芯片初创公司 Groq 曾长期默默无闻,但现在它利用专为大型语言模型(LLM)(如 GPT、Llama 和 Mistral LLM)设计的语言处理单元(LPU),在提供超快推理速度方面取得了重大进展。Groq LPU 是基于张量流处理器(TSP)架构的单核单元,在 INT8 时可达到 750 TOPS,在 FP16 时可达到 188 TeraFLOPS,具有 320x320 融合点乘矩阵乘法,此外还有 5120 个矢量 ALU。Groq LPU 拥有 80 TB/s 的带宽,并具有大规模并发能力,其本地 SRAM 容量为 230 MB。所有这些共同作用,为 Groq 提供了出色的性能,在过去几天的互联网上掀起了波澜。在Mixtral 8x7B 模型中,Groq LPU 的推理速度为每秒 480 个令牌,在业内处于领先地位。在 Llama 2 70B 等上下文长度为 4096 个令牌的模型中,Groq 每秒可提供 300 个令牌,而在上下文长度为 2048 个令牌的较小 Llama 2 7B 中,Groq LPU 每秒可输出 750 个令牌。根据LLMPerf Leaderboard 的数据,Groq LPU 在推断 LLMs Llama 时击败了基于 GPU 的云提供商,其配置参数从 70 亿到 700 亿不等。在令牌吞吐量(输出)和到第一个令牌的时间(延迟)方面,Groq处于领先地位,实现了最高的吞吐量和第二低的延迟。ChatGPT 采用 GPT-3.5 免费版,每秒可输出约 40 个令牌。目前的开源 LLM(如 Mixtral 8x7B)可以在大多数基准测试中击败 GPT 3.5,现在这些开源 LLM 的运行速度几乎可以达到 500 令牌每秒。随着像 Groq 的 LPU 这样的快速推理芯片开始普及,等待聊天机器人回应的日子似乎开始慢慢消失了。这家人工智能初创公司直接威胁到英伟达(NVIDIA)、AMD 和英特尔提供的推理硬件,但业界是否愿意采用 LPU 仍是个问题,您可以在这里进行试用: ... PC版: 手机版:

封面图片

SK海力士宣布下一代HBM计划

SK海力士宣布下一代HBM计划 在最近一次负责HBM芯片的新任高管圆桌讨论中,SK海力士副总裁与营销负责人金基泰表示:“纵观当前的市场形势,大型科技客户正在加快新产品的发布时间,以确保在AI领域领先。因此,我们也在提前讨论今年和明年的计划,以确保及时供应下一代HBM产品。” SK海力士是三星电子全球第二大存储器芯片制造商,但却是HBM的主要供应商,HBM是一种对生成式AI设备至关重要的高性能堆栈式DRAM芯片。该公司是首家于2013年开发第一代HBM芯片的内存供应商,并在随后几年推出了后续产品HBM2、HBM2E 以及最新的第四代 HBM3 芯片。2023年 4 月,SK 开发出全球首款12层HBM3 DRAM 产品, 内存容量为 24 千兆字节 (GB),为业内最大。2023年 8 月,该公司推出了业界性能最佳的第五代 HBM DRAM HBM3E,用于 AI 应用, 并向其客户 NVIDIA Corp. 提供了样品以进行性能评估。今年 3 月,SK 海力士开始大批量生产 HBM3E 芯片,这是业界推出的另一个公司,同时表示将把第六代 HBM4 芯片的量产提前到 2025 年。大容量 NAND 受到业界关注SK 海力士副总裁兼 HBM 工艺集成(PI)负责人 Kwon Un-oh 表示:“通过先发制人地确保技术和量产专业知识,我们已经能够建立起稳固的竞争力。”先进封装开发部副总裁兼负责人Son Ho-young敦促公司为更好的存储器和系统芯片的融合。SK海力士表示,受AI学习和推理高端芯片需求不断增长的推动,预计今年全球DRAM市场规模将达到65%,达到117万亿韩元(850亿美元)。本月初,首席执行官Kwak Noh-jung在新闻发布会上表示,其HBM芯片产能几乎已被预订满到明年。SK海力士NAND先进工艺集成副总裁Oh Hae-soon表示,NAND闪存是AI时代的另一个前景光明的部分她表示:“随着对大规模AI服务器的需求不断增长,eSSD等NAND解决方案开始受到业界关注。”新兴存储芯片SK海力士革命技术中心 (RTC)副总裁Yi Jae-yun表示,公司还在密切关注新兴存储芯片,如仅选择器存储器 (SOM)、自旋存储器和突触存储器,这些芯片具有超高速、高容量和较低的价格,以及磁性 RAM (MRAM)、电阻式 RAM (RRAM) 和相变存储器 (PCM) 芯片。分析师表示,在存储芯片制造商中,SK海力士是AI应用爆炸式增长的最大受益者,因为它是NVIDIA Corp.的最大AI芯片供应商,而NVIDIA控制着80%的AI芯片市场。SK集团董事长崔泰源最近在接受日本媒体日经新闻采访时表示,如果SK海力士看到AI芯片融资需求,该公司正在考虑在韩国或美国建立HBM工厂的可能性。 ... PC版: 手机版:

封面图片

SRAM,不能微缩?还能救救

SRAM,不能微缩?还能救救 而后者SRAM与之相比,因其无需周期性更新存储的数据,通电情况下数据可一直保存,具有访问速度快的优点,通常用于CPU的高速缓存上面,但它处理1比特数据需要六个晶体管,而DRAM仅需一个晶体管,也导致了集成度较低,在相同体积下容量较小,存在体积大、成本较高等缺点。新思界产业研究中心的报告显示,2021年,全球半导体存储器市场规模达到1540亿美元左右,其中SRAM市场规模仅占极小一部分,2021年全球SRAM市场规模约为4亿美元。在全球范围内,美国是最大的SRAM需求市场,其次是日本。全球范围内,SRAM市场主要被美国赛普拉斯(Cypres)、日本瑞萨电子(Renesas)、美国ISSI公司(被北京君正收购)三家厂商所占据,合计市场占有率达到82%。在2023年以前,SRAM向来是最被冷落的存储技术之一,但随着近一年AI的爆火,情况正在悄然改变。AI带火SRAM2024年2月,GoogleTPU第一代设计者Jonathan Ross所创立的Groq公司正式宣布,其新一代LPU在多个公开测试中,以几乎最低的价格,相比GPU推理速度翻倍,后续有三方测试结果表明,该芯片对大语言模型推理进行优化效果显著,速度相较于英伟达GPU提高了10倍。在首次公开基准测试结果中,Groq搭载的Llama2或Mistreal模型在计算和响应速度上远超ChatGPT。这一成绩背后,是Groq团队为大语言模型(LLM)量身定制的专用芯片(ASIC),它使得Groq每秒可以生成高达500个 token。相比之下,目前ChatGPT-3.5的公开版本每秒只能生成大约40个token。根据知情人士透露,LPU的工作原理与GPU截然不同。它采用了时序指令集计算机(Temporal Instruction Set Computer)架构,这意味着它无需像使用高带宽存储器(HBM)的GPU那样频繁地从内存中加载数据。这一特点不仅有助于避免HBM短缺的问题,还能有效降低成本。有从事人工智能开发的用户称赞,Groq是追求低延迟产品的“游戏规则改变者”,低延迟指的是从处理请求到获得响应所需的时间。另一位用户则表示,Groq的LPU在未来有望对GPU在人工智能应用需求方面实现“革命性提升”,并认为它可能成为英伟达A100和H100芯片的“高性能硬件”的有力替代品。更重要的是,不同于其他GPU依赖于高速数据传输,Groq的LPU并没有采用高带宽存储器(HBM),它选择的正是SRAM,其速度比GPU所用的存储器快约20倍。一时间,和SRAM相关的概念股都成了香饽饽,不少人争先恐后地在投资平台询问AI相关,SRAM俨然成了又一个HBM。不过,很快就有专业人士给这波突如其来的热潮降温了:SRAM早就是个非常成熟的技术了,CPU中的寄存器和缓存都用的是SRAM,SRAM早已以IP内核形式完成在SoC的集成,本身的技术价值没有更大的突破。虽然SRAM确实要比DRAM快,但其价格很贵,容量较小,LPU乃至其他计算芯片,大量使用SRAM时需要有所权衡。此外,也有人指出Groq选择了SRAM的理由,主要是它只负责推理、不训练,而推理所需要的存储空间比训练要小得多,所以Groq的单板卡只有230MB的内存,由于成本和容量限制,需要谨慎看待SRAM这轮爆火。即便如此,AI还是给体量较小的SRAM打开了一条透着光的缝隙,一个全新的应用领域,就意味着更多的增长机会,而不是局限在之前的一亩三分地上。有意思的是,早在Groq官宣新的LPU前,国外网站半导体工程已经与 Alphawave Semi 首席技术官 Tony Chan Carusone、Quadric 首席营销官 Steve Roddy 和西门子 EDA 存储技术专家 Jongsin Yun 就人工智能和 SRAM 的最新问题进行了讨论。西门子 EDA 存储技术专家 Jongsin Yun表示, SRAM 与 CMOS 逻辑工艺兼容,这使得 SRAM 在从一种技术迁移到另一种技术时,可以跟踪逻辑性能的提高。SRAM 是芯片内的本地可用存储器。因此,它能提供即时访问的数据,这也是它在人工智能应用中受到青睐的原因。凭借数十年的制造经验,我们了解其大部分潜在问题以及如何最大限度地发挥其优势。就性能而言,SRAM 是我们迄今所知性能最高的内存解决方案,因此成为人工智能的首选。Quadric 首席营销官 Steve Roddy 则表示,SRAM 是任何人工智能处理解决方案的关键要素,SRAM 的用量在很大程度上取决于你谈论的是数据中心还是设备,或者是训练还是推理。但不论何种应用,在处理元件旁边都会有大量的 SRAM。不同类型计算实现之间的所有架构差异,归根结底都是管理内存、管理权重和激活流的不同策略,而这又极大地依赖于可用和可选的内存类型。任何芯片架构师都要根据自己的部署方案有效地规划内存层次结构,但在任何方案中,都必须有 SRAM。Alphawave Semi 首席技术官 Tony Chan Carusone也表示,SRAM 对人工智能至关重要,尤其是嵌入式 SRAM。它的性能最高,而且可以直接与高密度逻辑集成在一起。仅从这些原因来看,它就非常重要。逻辑的扩展性要好于 SRAM。因此,SRAM 变得更加重要,并占用了更大一部分芯片面积。一些处理器上有大量的 SRAM,而且这种趋势可能会继续下去,这将成为整个处理器的一个重要成本驱动因素。一个新趋势是,将这些已达到视网膜极限的大型芯片分解成多个芯片组,并通过适当的互连,使它们能够像一个大型芯片一样运行,从而集成更多的计算和更多的 SRAM。反过来,大量的 SRAM 又进一步推动了向基于芯片的实现过渡。通过这几位专家的讨论我们可以发现,即便是不像Groq那样直接把SRAM当作内存来使用,AI依旧和SRAM脱不开干系,SRAM未来也有望随着AI的火热来焕发第二春。SRAM的绊脚石但困扰SRAM的,远不止应用,还有技术。前面提到过,SRAM采用的是6晶体管架构(逻辑区通常包含4个晶体管/单元),但是,在跟上 CMOS 缩放的步伐时,SRAM 却表现不佳,这对功耗和性能产生了影响。随着人工智能设计对内部存储器访问的要求越来越高,如何在技术节点迁移过程中进一步扩大 SRAM 的功耗和性能优势已成为一项重大挑战。在2022年底,台积电的一篇论文带来了可怕的坏消息虽然逻辑仍在或多或少地沿着历史趋势线扩展,但 SRAM 扩展似乎已经完全崩溃。台积电曾在正式推出 N3 制造技术时表示,与 N5(5 纳米级)工艺相比,新节点的逻辑密度将提高 1.6 倍和 1.7 倍,而台积电在论文却承认,与 N5 相比,新技术的 SRAM 单元几乎没有扩展。台积电 N3 的 SRAM 位元尺寸为 0.0199µm^²,与 N5 的 0.021 µm^² SRAM 位元相比,仅缩小了约 5%。改进后的 N3E 情况更糟,因为它配备了 0.021 µm^² SRAM 位元组(大致相当于 31.8 Mib/mm^²),这意味着与 N5 相比完全没有缩放。随着芯片性能的增长,对缓存和 SRAM 的需求只会增加,但 N3(仅用于少数产品)和 N3E 却无法减少 SRAM 占用的芯片面积,也无法降低新节点比 N5 更高的成本。从根本上说,这意味着高性能处理器的芯片尺寸将增大,成本也将增加,同时SRAM 单元也会与逻辑单元一样容易出现缺陷。虽然芯片设计人员将能够利用台积电 N3 的 FinFlex 创新技术(在一个区块中混合和匹配不同种类的 FinFET,以优化其性能、功耗或面积)来缓解 SRAM 单元变大的问题,但无法根治SRAM无法扩展这一问题事实上,早在 20nm 制程中,SRAM 就无法与逻辑相应地扩展,这也注定了当片上存储器变得比芯片本身还要大时,会面临功耗和性能方面的挑战。而针对这些问题,系统设计人员和硬件开发人员也从那时就在不断提出新的解决方案和开发新的技术。AMD采取了不同的方法。它推出了一种名为 3D V-Cache 的技术,该技术允许将单独芯片上的附加 SRAM 高速缓存存储器堆叠在处理器顶部,从而增加处理器内核可用的高速缓存量。额外的芯片增加了成本,但允许访问额外的 ... PC版: 手机版:

封面图片

HBM之后,DRAM的新战场

HBM之后,DRAM的新战场 三星电子、SK 海力士、美光三大存储器半导体公司之间的竞争,正从高带宽存储器(HBM)扩大到图形 DRAM,即图形双倍数据速率(GDDR)。图形 DRAM 的开发重点是通过拓宽数据传输路径来提高处理速度和效率。它不仅用于 AI 加速器,还用于加密货币挖掘。随着 AI PC 和其他设备上 AI 终端即将发布,相关市场预计将迅速增长。2023年2月,三星在国际固态电路会议(ISSCC)上首次展示了37Gbps的GDDR7 DRAM。紧接着,SK海力士在2023年3月于美国圣何塞举行的“NVIDIA GTC”上,推出了比三星电子和美光更快的40Gbps GDDR7。他们在本月初于台湾举行的“Computex 2024”上也将GDDR7纳入了参展产品中。最大带宽提升至每秒128GB,比上一代GDDR6增加了一倍,功率效率提高了40%。6月4日,美光在台湾举办的“Computex 2024”上推出了新一代GDDR7,介绍称最高速度可达32Gbps,与上一代相比带宽提升60%,功率效率提升50%。据业内人士 6 月 21 日透露,三家存储器公司正通过推出比上一代速度更快、更省电的下一代产品,为全面量产竞争做准备。随着 AI PC 和其他设备上 AI 终端的发布,图形 DRAM 市场预计将快速增长。市场研究公司 Omdia 预测,到今年年底,图形 DRAM 将占整个 DRAM 市场的 15%,比 2022 年的 7% 翻一番。尤其是,由于预计 NVIDIA 将在其下一代笔记本电脑 GPU GeForce RTX50 上配备下一代 GDDR7,预计这三家公司为赢得 NVIDIA 青睐而展开的竞争将愈演愈烈。GDDR7 是下一代图形 DRAM 产品,旨在在 PC 和游戏机中无延迟地处理大型 3D 图形数据。除了 HBM 之外,GDDR 被认为是现有速度最快的内存。它主要用于笔记本电脑和游戏机的显卡,可提高高清视频和高性能游戏的图形处理速度。在加密货币热潮期间,它也作为虚拟资产挖矿的内存而广受欢迎。随着近来人工智能的兴起,快速处理大量数据的需求不断增加,GDDR 的使用范围也不断扩大。因此,它已成为三家内存公司与 HBM 并驾齐驱的另一个战场。这三家公司竞相为 NVIDIA 的 GPU 供应 HBM,在 GDDR 方面也展开了类似的竞争。三家内存公司预计将于今年下半年全面量产 GDDR7。与 HBM 相比,GDDR7 的数据处理速度更快,价格也相对较低,预计在人工智能时代,GDDR7 的使用范围将进一步扩大。一位行业专家表示:“继 HBM 之后,图形 DRAM 成为战场。”他们补充道:“GDDR 是 NVIDIA GPU 的‘最佳朋友’DRAM”,强调了 GDDR 在增强 GPU 性能方面的关键作用。随着行业为下一波技术进步做好准备,三星电子、SK 海力士和美光之间的竞争将决定图形 DRAM 市场的未来。 ... PC版: 手机版:

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人