SRAM,不能微缩?还能救救
SRAM,不能微缩?还能救救 而后者SRAM与之相比,因其无需周期性更新存储的数据,通电情况下数据可一直保存,具有访问速度快的优点,通常用于CPU的高速缓存上面,但它处理1比特数据需要六个晶体管,而DRAM仅需一个晶体管,也导致了集成度较低,在相同体积下容量较小,存在体积大、成本较高等缺点。新思界产业研究中心的报告显示,2021年,全球半导体存储器市场规模达到1540亿美元左右,其中SRAM市场规模仅占极小一部分,2021年全球SRAM市场规模约为4亿美元。在全球范围内,美国是最大的SRAM需求市场,其次是日本。全球范围内,SRAM市场主要被美国赛普拉斯(Cypres)、日本瑞萨电子(Renesas)、美国ISSI公司(被北京君正收购)三家厂商所占据,合计市场占有率达到82%。在2023年以前,SRAM向来是最被冷落的存储技术之一,但随着近一年AI的爆火,情况正在悄然改变。AI带火SRAM2024年2月,GoogleTPU第一代设计者Jonathan Ross所创立的Groq公司正式宣布,其新一代LPU在多个公开测试中,以几乎最低的价格,相比GPU推理速度翻倍,后续有三方测试结果表明,该芯片对大语言模型推理进行优化效果显著,速度相较于英伟达GPU提高了10倍。在首次公开基准测试结果中,Groq搭载的Llama2或Mistreal模型在计算和响应速度上远超ChatGPT。这一成绩背后,是Groq团队为大语言模型(LLM)量身定制的专用芯片(ASIC),它使得Groq每秒可以生成高达500个 token。相比之下,目前ChatGPT-3.5的公开版本每秒只能生成大约40个token。根据知情人士透露,LPU的工作原理与GPU截然不同。它采用了时序指令集计算机(Temporal Instruction Set Computer)架构,这意味着它无需像使用高带宽存储器(HBM)的GPU那样频繁地从内存中加载数据。这一特点不仅有助于避免HBM短缺的问题,还能有效降低成本。有从事人工智能开发的用户称赞,Groq是追求低延迟产品的“游戏规则改变者”,低延迟指的是从处理请求到获得响应所需的时间。另一位用户则表示,Groq的LPU在未来有望对GPU在人工智能应用需求方面实现“革命性提升”,并认为它可能成为英伟达A100和H100芯片的“高性能硬件”的有力替代品。更重要的是,不同于其他GPU依赖于高速数据传输,Groq的LPU并没有采用高带宽存储器(HBM),它选择的正是SRAM,其速度比GPU所用的存储器快约20倍。一时间,和SRAM相关的概念股都成了香饽饽,不少人争先恐后地在投资平台询问AI相关,SRAM俨然成了又一个HBM。不过,很快就有专业人士给这波突如其来的热潮降温了:SRAM早就是个非常成熟的技术了,CPU中的寄存器和缓存都用的是SRAM,SRAM早已以IP内核形式完成在SoC的集成,本身的技术价值没有更大的突破。虽然SRAM确实要比DRAM快,但其价格很贵,容量较小,LPU乃至其他计算芯片,大量使用SRAM时需要有所权衡。此外,也有人指出Groq选择了SRAM的理由,主要是它只负责推理、不训练,而推理所需要的存储空间比训练要小得多,所以Groq的单板卡只有230MB的内存,由于成本和容量限制,需要谨慎看待SRAM这轮爆火。即便如此,AI还是给体量较小的SRAM打开了一条透着光的缝隙,一个全新的应用领域,就意味着更多的增长机会,而不是局限在之前的一亩三分地上。有意思的是,早在Groq官宣新的LPU前,国外网站半导体工程已经与 Alphawave Semi 首席技术官 Tony Chan Carusone、Quadric 首席营销官 Steve Roddy 和西门子 EDA 存储技术专家 Jongsin Yun 就人工智能和 SRAM 的最新问题进行了讨论。西门子 EDA 存储技术专家 Jongsin Yun表示, SRAM 与 CMOS 逻辑工艺兼容,这使得 SRAM 在从一种技术迁移到另一种技术时,可以跟踪逻辑性能的提高。SRAM 是芯片内的本地可用存储器。因此,它能提供即时访问的数据,这也是它在人工智能应用中受到青睐的原因。凭借数十年的制造经验,我们了解其大部分潜在问题以及如何最大限度地发挥其优势。就性能而言,SRAM 是我们迄今所知性能最高的内存解决方案,因此成为人工智能的首选。Quadric 首席营销官 Steve Roddy 则表示,SRAM 是任何人工智能处理解决方案的关键要素,SRAM 的用量在很大程度上取决于你谈论的是数据中心还是设备,或者是训练还是推理。但不论何种应用,在处理元件旁边都会有大量的 SRAM。不同类型计算实现之间的所有架构差异,归根结底都是管理内存、管理权重和激活流的不同策略,而这又极大地依赖于可用和可选的内存类型。任何芯片架构师都要根据自己的部署方案有效地规划内存层次结构,但在任何方案中,都必须有 SRAM。Alphawave Semi 首席技术官 Tony Chan Carusone也表示,SRAM 对人工智能至关重要,尤其是嵌入式 SRAM。它的性能最高,而且可以直接与高密度逻辑集成在一起。仅从这些原因来看,它就非常重要。逻辑的扩展性要好于 SRAM。因此,SRAM 变得更加重要,并占用了更大一部分芯片面积。一些处理器上有大量的 SRAM,而且这种趋势可能会继续下去,这将成为整个处理器的一个重要成本驱动因素。一个新趋势是,将这些已达到视网膜极限的大型芯片分解成多个芯片组,并通过适当的互连,使它们能够像一个大型芯片一样运行,从而集成更多的计算和更多的 SRAM。反过来,大量的 SRAM 又进一步推动了向基于芯片的实现过渡。通过这几位专家的讨论我们可以发现,即便是不像Groq那样直接把SRAM当作内存来使用,AI依旧和SRAM脱不开干系,SRAM未来也有望随着AI的火热来焕发第二春。SRAM的绊脚石但困扰SRAM的,远不止应用,还有技术。前面提到过,SRAM采用的是6晶体管架构(逻辑区通常包含4个晶体管/单元),但是,在跟上 CMOS 缩放的步伐时,SRAM 却表现不佳,这对功耗和性能产生了影响。随着人工智能设计对内部存储器访问的要求越来越高,如何在技术节点迁移过程中进一步扩大 SRAM 的功耗和性能优势已成为一项重大挑战。在2022年底,台积电的一篇论文带来了可怕的坏消息虽然逻辑仍在或多或少地沿着历史趋势线扩展,但 SRAM 扩展似乎已经完全崩溃。台积电曾在正式推出 N3 制造技术时表示,与 N5(5 纳米级)工艺相比,新节点的逻辑密度将提高 1.6 倍和 1.7 倍,而台积电在论文却承认,与 N5 相比,新技术的 SRAM 单元几乎没有扩展。台积电 N3 的 SRAM 位元尺寸为 0.0199µm^²,与 N5 的 0.021 µm^² SRAM 位元相比,仅缩小了约 5%。改进后的 N3E 情况更糟,因为它配备了 0.021 µm^² SRAM 位元组(大致相当于 31.8 Mib/mm^²),这意味着与 N5 相比完全没有缩放。随着芯片性能的增长,对缓存和 SRAM 的需求只会增加,但 N3(仅用于少数产品)和 N3E 却无法减少 SRAM 占用的芯片面积,也无法降低新节点比 N5 更高的成本。从根本上说,这意味着高性能处理器的芯片尺寸将增大,成本也将增加,同时SRAM 单元也会与逻辑单元一样容易出现缺陷。虽然芯片设计人员将能够利用台积电 N3 的 FinFlex 创新技术(在一个区块中混合和匹配不同种类的 FinFET,以优化其性能、功耗或面积)来缓解 SRAM 单元变大的问题,但无法根治SRAM无法扩展这一问题事实上,早在 20nm 制程中,SRAM 就无法与逻辑相应地扩展,这也注定了当片上存储器变得比芯片本身还要大时,会面临功耗和性能方面的挑战。而针对这些问题,系统设计人员和硬件开发人员也从那时就在不断提出新的解决方案和开发新的技术。AMD采取了不同的方法。它推出了一种名为 3D V-Cache 的技术,该技术允许将单独芯片上的附加 SRAM 高速缓存存储器堆叠在处理器顶部,从而增加处理器内核可用的高速缓存量。额外的芯片增加了成本,但允许访问额外的 ... PC版: 手机版:
在Telegram中查看相关推荐

🔍 发送关键词来寻找群组、频道或视频。
启动SOSO机器人