SRAM,不能微缩?还能救救

SRAM,不能微缩?还能救救 而后者SRAM与之相比,因其无需周期性更新存储的数据,通电情况下数据可一直保存,具有访问速度快的优点,通常用于CPU的高速缓存上面,但它处理1比特数据需要六个晶体管,而DRAM仅需一个晶体管,也导致了集成度较低,在相同体积下容量较小,存在体积大、成本较高等缺点。新思界产业研究中心的报告显示,2021年,全球半导体存储器市场规模达到1540亿美元左右,其中SRAM市场规模仅占极小一部分,2021年全球SRAM市场规模约为4亿美元。在全球范围内,美国是最大的SRAM需求市场,其次是日本。全球范围内,SRAM市场主要被美国赛普拉斯(Cypres)、日本瑞萨电子(Renesas)、美国ISSI公司(被北京君正收购)三家厂商所占据,合计市场占有率达到82%。在2023年以前,SRAM向来是最被冷落的存储技术之一,但随着近一年AI的爆火,情况正在悄然改变。AI带火SRAM2024年2月,GoogleTPU第一代设计者Jonathan Ross所创立的Groq公司正式宣布,其新一代LPU在多个公开测试中,以几乎最低的价格,相比GPU推理速度翻倍,后续有三方测试结果表明,该芯片对大语言模型推理进行优化效果显著,速度相较于英伟达GPU提高了10倍。在首次公开基准测试结果中,Groq搭载的Llama2或Mistreal模型在计算和响应速度上远超ChatGPT。这一成绩背后,是Groq团队为大语言模型(LLM)量身定制的专用芯片(ASIC),它使得Groq每秒可以生成高达500个 token。相比之下,目前ChatGPT-3.5的公开版本每秒只能生成大约40个token。根据知情人士透露,LPU的工作原理与GPU截然不同。它采用了时序指令集计算机(Temporal Instruction Set Computer)架构,这意味着它无需像使用高带宽存储器(HBM)的GPU那样频繁地从内存中加载数据。这一特点不仅有助于避免HBM短缺的问题,还能有效降低成本。有从事人工智能开发的用户称赞,Groq是追求低延迟产品的“游戏规则改变者”,低延迟指的是从处理请求到获得响应所需的时间。另一位用户则表示,Groq的LPU在未来有望对GPU在人工智能应用需求方面实现“革命性提升”,并认为它可能成为英伟达A100和H100芯片的“高性能硬件”的有力替代品。更重要的是,不同于其他GPU依赖于高速数据传输,Groq的LPU并没有采用高带宽存储器(HBM),它选择的正是SRAM,其速度比GPU所用的存储器快约20倍。一时间,和SRAM相关的概念股都成了香饽饽,不少人争先恐后地在投资平台询问AI相关,SRAM俨然成了又一个HBM。不过,很快就有专业人士给这波突如其来的热潮降温了:SRAM早就是个非常成熟的技术了,CPU中的寄存器和缓存都用的是SRAM,SRAM早已以IP内核形式完成在SoC的集成,本身的技术价值没有更大的突破。虽然SRAM确实要比DRAM快,但其价格很贵,容量较小,LPU乃至其他计算芯片,大量使用SRAM时需要有所权衡。此外,也有人指出Groq选择了SRAM的理由,主要是它只负责推理、不训练,而推理所需要的存储空间比训练要小得多,所以Groq的单板卡只有230MB的内存,由于成本和容量限制,需要谨慎看待SRAM这轮爆火。即便如此,AI还是给体量较小的SRAM打开了一条透着光的缝隙,一个全新的应用领域,就意味着更多的增长机会,而不是局限在之前的一亩三分地上。有意思的是,早在Groq官宣新的LPU前,国外网站半导体工程已经与 Alphawave Semi 首席技术官 Tony Chan Carusone、Quadric 首席营销官 Steve Roddy 和西门子 EDA 存储技术专家 Jongsin Yun 就人工智能和 SRAM 的最新问题进行了讨论。西门子 EDA 存储技术专家 Jongsin Yun表示, SRAM 与 CMOS 逻辑工艺兼容,这使得 SRAM 在从一种技术迁移到另一种技术时,可以跟踪逻辑性能的提高。SRAM 是芯片内的本地可用存储器。因此,它能提供即时访问的数据,这也是它在人工智能应用中受到青睐的原因。凭借数十年的制造经验,我们了解其大部分潜在问题以及如何最大限度地发挥其优势。就性能而言,SRAM 是我们迄今所知性能最高的内存解决方案,因此成为人工智能的首选。Quadric 首席营销官 Steve Roddy 则表示,SRAM 是任何人工智能处理解决方案的关键要素,SRAM 的用量在很大程度上取决于你谈论的是数据中心还是设备,或者是训练还是推理。但不论何种应用,在处理元件旁边都会有大量的 SRAM。不同类型计算实现之间的所有架构差异,归根结底都是管理内存、管理权重和激活流的不同策略,而这又极大地依赖于可用和可选的内存类型。任何芯片架构师都要根据自己的部署方案有效地规划内存层次结构,但在任何方案中,都必须有 SRAM。Alphawave Semi 首席技术官 Tony Chan Carusone也表示,SRAM 对人工智能至关重要,尤其是嵌入式 SRAM。它的性能最高,而且可以直接与高密度逻辑集成在一起。仅从这些原因来看,它就非常重要。逻辑的扩展性要好于 SRAM。因此,SRAM 变得更加重要,并占用了更大一部分芯片面积。一些处理器上有大量的 SRAM,而且这种趋势可能会继续下去,这将成为整个处理器的一个重要成本驱动因素。一个新趋势是,将这些已达到视网膜极限的大型芯片分解成多个芯片组,并通过适当的互连,使它们能够像一个大型芯片一样运行,从而集成更多的计算和更多的 SRAM。反过来,大量的 SRAM 又进一步推动了向基于芯片的实现过渡。通过这几位专家的讨论我们可以发现,即便是不像Groq那样直接把SRAM当作内存来使用,AI依旧和SRAM脱不开干系,SRAM未来也有望随着AI的火热来焕发第二春。SRAM的绊脚石但困扰SRAM的,远不止应用,还有技术。前面提到过,SRAM采用的是6晶体管架构(逻辑区通常包含4个晶体管/单元),但是,在跟上 CMOS 缩放的步伐时,SRAM 却表现不佳,这对功耗和性能产生了影响。随着人工智能设计对内部存储器访问的要求越来越高,如何在技术节点迁移过程中进一步扩大 SRAM 的功耗和性能优势已成为一项重大挑战。在2022年底,台积电的一篇论文带来了可怕的坏消息虽然逻辑仍在或多或少地沿着历史趋势线扩展,但 SRAM 扩展似乎已经完全崩溃。台积电曾在正式推出 N3 制造技术时表示,与 N5(5 纳米级)工艺相比,新节点的逻辑密度将提高 1.6 倍和 1.7 倍,而台积电在论文却承认,与 N5 相比,新技术的 SRAM 单元几乎没有扩展。台积电 N3 的 SRAM 位元尺寸为 0.0199µm^²,与 N5 的 0.021 µm^² SRAM 位元相比,仅缩小了约 5%。改进后的 N3E 情况更糟,因为它配备了 0.021 µm^² SRAM 位元组(大致相当于 31.8 Mib/mm^²),这意味着与 N5 相比完全没有缩放。随着芯片性能的增长,对缓存和 SRAM 的需求只会增加,但 N3(仅用于少数产品)和 N3E 却无法减少 SRAM 占用的芯片面积,也无法降低新节点比 N5 更高的成本。从根本上说,这意味着高性能处理器的芯片尺寸将增大,成本也将增加,同时SRAM 单元也会与逻辑单元一样容易出现缺陷。虽然芯片设计人员将能够利用台积电 N3 的 FinFlex 创新技术(在一个区块中混合和匹配不同种类的 FinFET,以优化其性能、功耗或面积)来缓解 SRAM 单元变大的问题,但无法根治SRAM无法扩展这一问题事实上,早在 20nm 制程中,SRAM 就无法与逻辑相应地扩展,这也注定了当片上存储器变得比芯片本身还要大时,会面临功耗和性能方面的挑战。而针对这些问题,系统设计人员和硬件开发人员也从那时就在不断提出新的解决方案和开发新的技术。AMD采取了不同的方法。它推出了一种名为 3D V-Cache 的技术,该技术允许将单独芯片上的附加 SRAM 高速缓存存储器堆叠在处理器顶部,从而增加处理器内核可用的高速缓存量。额外的芯片增加了成本,但允许访问额外的 ... PC版: 手机版:

相关推荐

封面图片

[整理]k_zer0s老哥对Groq的LPU为什么能有这么快的推理速度做了相对详细的解释:

[整理]k_zer0s老哥对Groq的LPU为什么能有这么快的推理速度做了相对详细的解释: Groq的LPU在处理请求和响应方面,速度超越了Nvidia的GPU。 不同于Nvidia GPU需要依赖高速数据传输,Groq的LPU在其系统中没有采用高带宽存储器(HBM)。它使用的是SRAM,其速度比GPU所用的存储器快约20倍。 鉴于AI的推理计算相较于模型训练需要的数据量远小,Groq的LPU因此更节能。在执行推理任务时,它从外部内存读取的数据更少,消耗的电量也低于Nvidia的GPU。 LPU的工作原理与GPU截然不同。它采用了时序指令集计算机(Temporal Instruction Set Computer)架构,这意味着它无需像使用高带宽存储器(HBM)的GPU那样频繁地从内存中加载数据。这一特点不仅有助于避免HBM短缺的问题,还能有效降低成本。 如果在AI处理场景中采用Groq的LPU,可能就无需为Nvidia GPU配置特殊的存储解决方案。LPU并不像GPU那样对存储速度有极高要求。Groq公司宣称,其技术能够通过其强大的芯片和软件,在AI任务中取代GPU的角色。 来源:

封面图片

台积电准备推出基于12和5nm工艺节点的下一代HBM4基础芯片

台积电准备推出基于12和5nm工艺节点的下一代HBM4基础芯片 访问:NordVPN 立减 75% + 外加 3 个月时长 另有NordPass密码管理器 作为 2024 年欧洲技术研讨会演讲的一部分,台积电提供了一些有关其将为 HBM4 制造的基础模具的新细节,这些模具将使用逻辑工艺制造。由于台积电计划采用其 N12 和 N5 工艺的变体来完成这项任务,该公司有望在 HBM4 制造工艺中占据有利地位,因为内存工厂目前还不具备经济地生产这种先进逻辑芯片的能力(如果它们能生产的话)。对于第一波 HBM4,台积电准备采用两种制造工艺:N12FFC+ 和 N5。虽然它们的目的相同将 HBM4E 内存与下一代 AI 和 HPC 处理器集成,但它们将以两种不同的方式连接用于 AI 和 HPC 应用的高性能处理器内存。台积电设计与技术平台高级总监表示:"我们正与主要的 HBM 存储器合作伙伴(美光、三星、SK 海力士)合作,在先进节点上实现 HBM4 全堆栈集成。N12FFC+高性价比基础芯片可以达到HBM的性能,而N5基础芯片可以在HBM4速度下以更低的功耗提供更多的逻辑。"台积电采用 N12FFC+ 制造工艺(12 纳米 FinFet Compact Plus,正式属于 12 纳米级别的技术,但其根源来自台积电久经考验的 16 纳米 FinFET 生产节点)制造的基础芯片将用于在系统级芯片(SoC)旁边的硅中间件上安装 HBM4 存储器堆栈。台积电认为,他们的 12FFC+ 工艺非常适合实现 HBM4 性能,使内存供应商能够构建 12-Hi(48 GB) 和 16-Hi 堆栈(64 GB),每堆栈带宽超过 2 TB/秒。高级总监说:"我们还在为 HBM4 优化 CoWoS-L 和 CoWoS-R。CoWoS-L和CoWoS-R都[使用]超过八层,以实现HBM4的2000多个互连的路由,并具有[适当的]信号完整性"。N12FFC+ 上的 HBM4 基础芯片将有助于使用台积电的 CoWoS-L 或 CoWoS-R 先进封装技术构建系统级封装 (SiP),该技术可为内插件提供高达 8 倍网纹尺寸的空间,足以容纳多达 12 个 HBM4 存储器堆栈。根据台积电的数据,目前,HBM4 在电流为 14mA 时的数据传输速率可达 6 GT/s。台积电代表解释说:"我们与 Cadence、Synopsys 和 Ansys 等 EDA 合作伙伴合作,对 HBM4 通道信号完整性、IR/EM 和热精度进行认证。"同时,作为更先进的替代方案,内存制造商还可以选择台积电的 N5 工艺来生产 HBM4 基础芯片。采用 N5 工艺的基础芯片将包含更多的逻辑,功耗更低,性能更高。但可以说最重要的好处是,这种先进的工艺技术将实现非常小的互连间距,大约为 6 至 9 微米。这将使 N5 基本芯片与直接键合技术结合使用,从而使 HBM4 可以直接在逻辑芯片上进行三维堆叠。直接键合技术可实现更高的内存性能,这对于一直在渴求更多内存带宽的人工智能和高性能计算芯片来说将是一个巨大的推动。我们已经知道台积电和 SK Hynix 正合作开发 HBM4 基础芯片。台积电很可能也会为美光生产 HBM4 基础芯片。否则,我们会更惊讶地看到台积电与三星合作,因为这家企业集团已经通过其三星代工部门拥有了自己的先进逻辑晶圆厂。 ... PC版: 手机版:

封面图片

SK hynix宣布与台积电合作开发用于HBM4存储芯片的封装技术

SK hynix宣布与台积电合作开发用于HBM4存储芯片的封装技术 SK hynix 表示,与全球顶级代工厂台积电的合作将带来更多的 HBM 技术创新。通过产品设计、代工厂和存储器供应商之间的三方合作,此次合作有望在存储器性能方面实现突破。两家公司将首先致力于提高安装在 HBM 封装最底部的基础芯片的性能。HBM 是在采用 TSV 技术的基底芯片上堆叠核心 DRAM 芯片,并通过 TSV 将 DRAM 堆叠中的固定层数与核心芯片垂直连接成 HBM 封装。位于底部的基础芯片连接到 GPU,由 GPU 控制 HBM。SK hynix 采用专有技术制造 HBM3E 以下的基础芯片,但计划在 HBM4 的基础芯片上采用台积电的先进逻辑工艺,这样就可以在有限的空间内封装更多的功能。这也有助于 SK hynix 生产定制的 HBM,满足客户对性能和能效的需求。SK hynix和台积电还同意合作优化SK hynix的HBM和台积电的CoWoS技术的整合,同时合作应对客户在HBM方面的共同要求。K hynix 总裁兼 AI Infra 负责人 Justin Kim 说:"我们期待与台积电建立强大的合作伙伴关系,帮助我们加快与客户的开放式合作,并开发出业界性能最佳的 HBM4。有了这次合作,我们将通过增强在定制存储器平台领域的竞争力,进一步巩固我们作为全面人工智能存储器供应商的市场领导地位。""多年来,台积电和 SK hynix 已经建立了牢固的合作伙伴关系。多年来,台积电与SK hynix已经建立了稳固的合作关系,我们共同致力于整合最先进的逻辑和最先进的HBM,提供全球领先的人工智能解决方案。展望下一代 HBM4,我们有信心继续紧密合作,提供最佳集成解决方案,为我们的共同客户开启新的人工智能创新。" ... PC版: 手机版:

封面图片

SK海力士宣布下一代HBM计划

SK海力士宣布下一代HBM计划 在最近一次负责HBM芯片的新任高管圆桌讨论中,SK海力士副总裁与营销负责人金基泰表示:“纵观当前的市场形势,大型科技客户正在加快新产品的发布时间,以确保在AI领域领先。因此,我们也在提前讨论今年和明年的计划,以确保及时供应下一代HBM产品。” SK海力士是三星电子全球第二大存储器芯片制造商,但却是HBM的主要供应商,HBM是一种对生成式AI设备至关重要的高性能堆栈式DRAM芯片。该公司是首家于2013年开发第一代HBM芯片的内存供应商,并在随后几年推出了后续产品HBM2、HBM2E 以及最新的第四代 HBM3 芯片。2023年 4 月,SK 开发出全球首款12层HBM3 DRAM 产品, 内存容量为 24 千兆字节 (GB),为业内最大。2023年 8 月,该公司推出了业界性能最佳的第五代 HBM DRAM HBM3E,用于 AI 应用, 并向其客户 NVIDIA Corp. 提供了样品以进行性能评估。今年 3 月,SK 海力士开始大批量生产 HBM3E 芯片,这是业界推出的另一个公司,同时表示将把第六代 HBM4 芯片的量产提前到 2025 年。大容量 NAND 受到业界关注SK 海力士副总裁兼 HBM 工艺集成(PI)负责人 Kwon Un-oh 表示:“通过先发制人地确保技术和量产专业知识,我们已经能够建立起稳固的竞争力。”先进封装开发部副总裁兼负责人Son Ho-young敦促公司为更好的存储器和系统芯片的融合。SK海力士表示,受AI学习和推理高端芯片需求不断增长的推动,预计今年全球DRAM市场规模将达到65%,达到117万亿韩元(850亿美元)。本月初,首席执行官Kwak Noh-jung在新闻发布会上表示,其HBM芯片产能几乎已被预订满到明年。SK海力士NAND先进工艺集成副总裁Oh Hae-soon表示,NAND闪存是AI时代的另一个前景光明的部分她表示:“随着对大规模AI服务器的需求不断增长,eSSD等NAND解决方案开始受到业界关注。”新兴存储芯片SK海力士革命技术中心 (RTC)副总裁Yi Jae-yun表示,公司还在密切关注新兴存储芯片,如仅选择器存储器 (SOM)、自旋存储器和突触存储器,这些芯片具有超高速、高容量和较低的价格,以及磁性 RAM (MRAM)、电阻式 RAM (RRAM) 和相变存储器 (PCM) 芯片。分析师表示,在存储芯片制造商中,SK海力士是AI应用爆炸式增长的最大受益者,因为它是NVIDIA Corp.的最大AI芯片供应商,而NVIDIA控制着80%的AI芯片市场。SK集团董事长崔泰源最近在接受日本媒体日经新闻采访时表示,如果SK海力士看到AI芯片融资需求,该公司正在考虑在韩国或美国建立HBM工厂的可能性。 ... PC版: 手机版:

封面图片

Kioxia 采用最新 BiCS FLASH 技术推出 2 Tb QLC 闪存

Kioxia 采用最新 BiCS FLASH 技术推出 2 Tb QLC 闪存 凭借最新的 BiCS FLASH 技术,Kioxia 通过专有工艺和创新架构实现了存储器芯片的纵向和横向扩展。此外,该公司还采用了 CBA(CMOS 直接绑定到阵列)技术,实现了更高密度的器件和业界领先的 3.6 Gbps 接口速度。这些先进技术共同应用于 2 Tb QLC 的制造,使其成为业界容量最大的存储器件。与 Kioxia 目前的第五代 QLC 器件相比,2 Tb QLC 的位密度高出约 2.3 倍,写入能效高出约 70%,是 Kioxia 产品中容量最高的器件。最新的 QLC 器件在单个存储器封装中采用 16 片堆叠架构,实现了业界领先的 4 TB 容量。它的封装尺寸更小,为 11.5 x 13.5 毫米,封装高度为 1.5 毫米。除了 2 Tb QLC,Kioxia 还在其产品组合中增加了 1 Tb QLC 存储器。与容量优化的 2 Tb QLC 相比,性能优化的 1 Tb QLC 的连续写入性能提高了约 30%,读取延迟提高了约 15%。1 Tb QLC 将部署在高性能应用中,包括客户端固态硬盘和移动设备。Kioxia 将继续开发业界领先的内存产品,以满足日益增长的数据存储解决方案需求。 ... PC版: 手机版:

封面图片

三星和SK海力士推12层HBM3E内存

三星和SK海力士推12层HBM3E内存 3月19日消息,三星电子和 SK 海力士3月18日在人工智能芯片巨头英伟达年度开发者大会 (GTC) 上双双公开12层堆叠动态随机存取存储器 (DRAM) 芯片的第五代高带宽存储器 (HBM3E) “HBM3E 12H DRAM”实物。高带宽存储器是指利用先进封装方法垂直堆叠多个DRAM芯片,使数据处理速度取得飞跃性提升的高性能内存。

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人