[整理]k_zer0s老哥对Groq的LPU为什么能有这么快的推理速度做了相对详细的解释:

[整理]k_zer0s老哥对Groq的LPU为什么能有这么快的推理速度做了相对详细的解释: Groq的LPU在处理请求和响应方面,速度超越了Nvidia的GPU。 不同于Nvidia GPU需要依赖高速数据传输,Groq的LPU在其系统中没有采用高带宽存储器(HBM)。它使用的是SRAM,其速度比GPU所用的存储器快约20倍。 鉴于AI的推理计算相较于模型训练需要的数据量远小,Groq的LPU因此更节能。在执行推理任务时,它从外部内存读取的数据更少,消耗的电量也低于Nvidia的GPU。 LPU的工作原理与GPU截然不同。它采用了时序指令集计算机(Temporal Instruction Set Computer)架构,这意味着它无需像使用高带宽存储器(HBM)的GPU那样频繁地从内存中加载数据。这一特点不仅有助于避免HBM短缺的问题,还能有效降低成本。 如果在AI处理场景中采用Groq的LPU,可能就无需为Nvidia GPU配置特殊的存储解决方案。LPU并不像GPU那样对存储速度有极高要求。Groq公司宣称,其技术能够通过其强大的芯片和软件,在AI任务中取代GPU的角色。 来源:

相关推荐

封面图片

AI推理速度提升超10倍 Groq LPU能否取代英伟达GPU?

AI推理速度提升超10倍 Groq LPU能否取代英伟达GPU? 推理速度比GPU快10倍,功耗仅1/10据介绍,Groq的大模型推理芯片是全球首个LPU(Language Processing Unit)方案,是一款基于全新的TSA 架构的Tensor Streaming Processor (TSP) 芯片,旨在提高机器学习和人工智能等计算密集型工作负载的性能。虽然Groq的LPU并没有采用更本高昂的尖端制程工艺,而是选择了14nm制程,但是凭借自研的TSA 架构,Groq LPU 芯片具有高度的并行处理能力,可以同时处理数百万个数据流,并该芯片还集成了230MB容量的SRAM来替代DRAM,以保证内存带宽,其片上内存带宽高达80TB/s。根据官方的数据显示,Groq的LPU芯片的性能表现相当出色,可以提供高达1000 TOPS (Tera Operations Per Second) 的计算能力,并且在某些机器学习模型上的性能表现可以比常规的 GPU 和 TPU 提升10到100倍。Groq表示,基于其LPU芯片的云服务器在Llama2或Mistreal模型在计算和响应速度上远超基于NVIDIA AI GPU的ChatGPT,其每秒可以生成高达500个 token。相比之下,目前ChatGPT-3.5的公开版本每秒只能生成大约40个token。由于ChatGPT-3.5主要是基于NVIDIA的GPU,也就是说,Groq LPU芯片的响应速度达到了NVIDIA  GPU的10倍以上。Groq表示,相对于其他云平台厂商的大模型推理性能,基于其LPU芯片的云服务器的大模型推理性能最终实现了比其他云平台厂商快18倍。另外,在能耗方面,NVIDIAGPU需要大约10到30焦耳才能生成响应中的tokens,而Groq LPU芯片仅需1到3焦耳,在推理速度大幅提升10倍的同时,其能耗成本仅有NVIDIAGPU的十分之一,这等于是性价比提高了100倍。Groq公司在演示中展示了其芯片的强大性能,支持Mistral AI的Mixtral8x7B SMoE,以及Meta的Llama2的7B和70B等多种模型,支持使用4096字节的上下文长度,并可直接体验Demo。不仅如此,Groq还喊话各大公司,扬言在三年内超越NVIDIA。目前该公司的LPU推理芯片在第三方网站上的售价为2万多美元,低于NVIDIA H100的2.5-3万美元。资料显示,Groq 是一家成立于2016年人工智能硬件初创公司,核心团队来源于谷歌最初的张量处理单元(TPU)工程团队。Groq 创始人兼CEO Jonathan Ross是谷歌TPU项目的核心研发人员。该公司硬件工程副总裁Jim Miller 曾是亚马逊云计算服务AWS设计算力硬件的负责人,还曾在英特尔领导了所有 Pentium II 工程。目前该公司筹集了超过 6200 万美元。为何采用大容量SRAM?Groq LPU芯片与大多数其他初创公司和现有的AI处理器有着截然不同的时序指令集计算机(Temporal Instruction Set Computer)架构,它被设计为一个强大的单线程流处理器,配备了专门设计的指令集,旨在利用张量操作和张量移动,使机器学习模型能够更有效地执行。该架构的独特之处在于执行单元、片内的SRAM内存和其他执行单元之间的交互。它无需像使用HBM(高带宽内存)的GPU那样频繁地从内存中加载数据。Groq 的神奇之处不仅在于硬件,还在于软件。软件定义的硬件在这里发挥着重要作用。Groq 的软件将张量流模型或其他深度学习模型编译成独立的指令流,并提前进行高度协调和编排。编排来自编译器。它提前确定并计划整个执行,从而实现非常确定的计算。“这种确定性来自于我们的编译器静态调度所有指令单元的事实。这使我们无需进行任何激进的推测即可公开指令级并行性。芯片上没有分支目标缓冲区或缓存代理,”Groq 的首席架构师 Dennis Abts 解释道。Groq LPU芯片为了追求性能最大化,因此添加了更多SRAM内存和执行块。SRAM全名为“静态随机存取存储器”(Static Random-Access Memory)是随机存取存储器的一种。所谓的“静态”,是指这种存储器只要保持通电,里面储存的数据就可以恒常保持。相对之下,动态随机存取存储器(DRAM)里面所储存的数据则需要周期性地更新。自SRAM推出60多年来,其一直是低延迟和高可靠性应用的首选存储器,事实上,对于 AI/ML 应用来说,SRAM 不仅仅具有其自身的优势。SRAM 对于 AI 至关重要,尤其是嵌入式 SRAM,它是性能最高的存储器,可以将其直接与高密度逻辑核心集成在一起。目前SRAM也是被诸多CPU集成在片内(更靠近CPU计算单元),作为CPU的高速缓存,使得CPU可以更直接、更快速的从SRAM中获取重要的数据,无需去DRAM当中读取。只不过,当前旗舰级CPU当中的SRAM容量最多也仅有几十个MB。Groq之所以选择使用大容量的 SRAM来替代DRAM 内存的原因主要有以下几点:1、SRAM 内存的访问速度比 DRAM 内存快得多,这意味着 LPU 芯片更快速地处理数据,从而提高计算性能。2、SRAM 内存没有 DRAM 内存的刷新延迟,这意味着LPU芯片也可以更高效地处理数据,减少延迟带来的影响。3、SRAM 内存的功耗比 DRAM 内存低,这意味着LPU芯片可以更有效地管理能耗,从而提高效率。但是,对于SRAM来说,其也有着一些劣势:1、面积更大:在逻辑晶体管随着CMOS工艺持续微缩的同时,SRAM的微缩却十分的困难。事实上,早在 20nm时代,SRAM 就无法随着逻辑晶体管的微缩相应地微缩。2、容量小:SRAM 的容量比 DRAM 小得多,这是因为每个bit的数据需要更多的晶体管来存储,再加上SRAM的微缩非常困难,使得相同面积下,SRAM容量远低于DRAM等存储器。这也使得SRAM在面对需要存储大量数据时的应用受到了限制。3、成本高:SRAM 的成本比 DRAM要高得多,再加上相同容量下,SRAM需要更多的晶体管来存储数据,这也使得其成本更高。总的来说,虽然SRAM 在尺寸、容量和成本等方面具有一些劣势,这些劣势限制了其在某些应用中的应用,但是 SRAM 的访问速度比 DRAM 快得多,这使得它在某些计算密集型应用中表现得非常出色。Groq LPU 芯片采用的大容量 SRAM 内存可以提供更高的带宽(高达80TB/s)、更低的功耗和更低的延迟,从而提高机器学习和人工智能等计算密集型工作负载的效率。那么,与目前AI GPU当中所搭载的 HBM 内存相比,Groq LPU 芯片集成的 SRAM 内存又有何优势和劣势呢?Groq LPU 芯片的 SRAM 内存容量虽然有230MB,但是相比之下AI GPU 中的 HBM 容量通常都有数十GB(比如NVIDIA H100,其集成了80GB HBM),这也意味着LPU 芯片可能无法处理更大的数据集和更复杂的模型。相同容量下,SRAM的成本也比HBM更高。不过,与HBM 相比,Groq LPU 芯片的所集成的 SRAM 的仍然有着带宽更快(NVIDIA H100的HBM带宽仅3TB/s)、功耗更低、延迟更低的优势。能否替代NVIDIA H00?虽然Groq公布的数据似乎表明,其LPU芯片的推理速度达到了NVIDIA GPU的10倍以上,并且能耗成本仅是它十分之一,等于是性价比提高了100倍。但是,Groq并且明确指出其比较的是NVIDIA的哪款GPU产品。由于目前NVIDIA最主流的AI GPU是H100,因此,我们就拿NVIDIA H100来与Groq LPU来做比较。由于Groq LPU只有230MB的片上SRAM来作为内存,因此,如果要运行Llama-2 70b模型,即使将Llama 2 70b量化到INT8精度,仍然需要70GB左右的内存。即使完全忽略内存消耗,也需要305张Groq LPU加速卡才够用。如果考虑到内存消耗,可能需要572张Groq LPU加速卡。官方数据显示,Groq LPU的平均功耗为185W,即使不计算外围设备的功耗,572张Groq LPU加速卡的总功耗也高达105.8kW。假设一张Groq LPU加速卡的价格为2万美元,因此,购买572张卡的成本高达1144万美元(规模采购价格应该可以更低)。根据人工智能科学家贾扬清分享的数据显示,目前,数据中心每月每千瓦的平均价格约为20美元,这意味着572张Groq LPU加速卡每年的电费为105.8*200*12=25.4万美元。贾扬清还表示,使用4张NVIDIA H100加速卡就可以实现572张Groq LPU一半的性能,这意味着一个8张H100的服务器的性能大致相当于572张Groq LPU。而8张H100加速卡... PC版: 手机版:

封面图片

Groq LPU人工智能推理芯片的运算表现可与主流厂商媲美

Groq LPU人工智能推理芯片的运算表现可与主流厂商媲美 一家人工智能芯片初创公司 Groq 曾长期默默无闻,但现在它利用专为大型语言模型(LLM)(如 GPT、Llama 和 Mistral LLM)设计的语言处理单元(LPU),在提供超快推理速度方面取得了重大进展。Groq LPU 是基于张量流处理器(TSP)架构的单核单元,在 INT8 时可达到 750 TOPS,在 FP16 时可达到 188 TeraFLOPS,具有 320x320 融合点乘矩阵乘法,此外还有 5120 个矢量 ALU。Groq LPU 拥有 80 TB/s 的带宽,并具有大规模并发能力,其本地 SRAM 容量为 230 MB。所有这些共同作用,为 Groq 提供了出色的性能,在过去几天的互联网上掀起了波澜。在Mixtral 8x7B 模型中,Groq LPU 的推理速度为每秒 480 个令牌,在业内处于领先地位。在 Llama 2 70B 等上下文长度为 4096 个令牌的模型中,Groq 每秒可提供 300 个令牌,而在上下文长度为 2048 个令牌的较小 Llama 2 7B 中,Groq LPU 每秒可输出 750 个令牌。根据LLMPerf Leaderboard 的数据,Groq LPU 在推断 LLMs Llama 时击败了基于 GPU 的云提供商,其配置参数从 70 亿到 700 亿不等。在令牌吞吐量(输出)和到第一个令牌的时间(延迟)方面,Groq处于领先地位,实现了最高的吞吐量和第二低的延迟。ChatGPT 采用 GPT-3.5 免费版,每秒可输出约 40 个令牌。目前的开源 LLM(如 Mixtral 8x7B)可以在大多数基准测试中击败 GPT 3.5,现在这些开源 LLM 的运行速度几乎可以达到 500 令牌每秒。随着像 Groq 的 LPU 这样的快速推理芯片开始普及,等待聊天机器人回应的日子似乎开始慢慢消失了。这家人工智能初创公司直接威胁到英伟达(NVIDIA)、AMD 和英特尔提供的推理硬件,但业界是否愿意采用 LPU 仍是个问题,您可以在这里进行试用: ... PC版: 手机版:

封面图片

英伟达发布下一代AI计算芯片 HGX H200 GPU

英伟达发布下一代AI计算芯片 HGX H200 GPU NVIDIA 今天宣布推出 NVIDIA HGX™ H200,为全球领先的 AI 计算平台带来强大动力。该平台基于 NVIDIA Hopper™ 架构,配备 NVIDIA H200 Tensor Core GPU 和高级内存,可处理生成 AI 和高性能计算工作负载的海量数据。 NVIDIA H200 是首款提供 HBM3e 的 GPU,HBM3e 是更快、更大的内存,可加速生成式 AI 和大型语言模型,同时推进 HPC 工作负载的科学计算。借助 HBM3e,NVIDIA H200 以每秒 4.8 TB 的速度提供 141GB 内存,与前一代 NVIDIA A100 相比,容量几乎翻倍,带宽增加 2.4 倍。 全球领先的服务器制造商和云服务提供商采用 H200 的系统预计将于 2024 年第二季度开始发货。

封面图片

SK海力士宣布下一代HBM计划

SK海力士宣布下一代HBM计划 在最近一次负责HBM芯片的新任高管圆桌讨论中,SK海力士副总裁与营销负责人金基泰表示:“纵观当前的市场形势,大型科技客户正在加快新产品的发布时间,以确保在AI领域领先。因此,我们也在提前讨论今年和明年的计划,以确保及时供应下一代HBM产品。” SK海力士是三星电子全球第二大存储器芯片制造商,但却是HBM的主要供应商,HBM是一种对生成式AI设备至关重要的高性能堆栈式DRAM芯片。该公司是首家于2013年开发第一代HBM芯片的内存供应商,并在随后几年推出了后续产品HBM2、HBM2E 以及最新的第四代 HBM3 芯片。2023年 4 月,SK 开发出全球首款12层HBM3 DRAM 产品, 内存容量为 24 千兆字节 (GB),为业内最大。2023年 8 月,该公司推出了业界性能最佳的第五代 HBM DRAM HBM3E,用于 AI 应用, 并向其客户 NVIDIA Corp. 提供了样品以进行性能评估。今年 3 月,SK 海力士开始大批量生产 HBM3E 芯片,这是业界推出的另一个公司,同时表示将把第六代 HBM4 芯片的量产提前到 2025 年。大容量 NAND 受到业界关注SK 海力士副总裁兼 HBM 工艺集成(PI)负责人 Kwon Un-oh 表示:“通过先发制人地确保技术和量产专业知识,我们已经能够建立起稳固的竞争力。”先进封装开发部副总裁兼负责人Son Ho-young敦促公司为更好的存储器和系统芯片的融合。SK海力士表示,受AI学习和推理高端芯片需求不断增长的推动,预计今年全球DRAM市场规模将达到65%,达到117万亿韩元(850亿美元)。本月初,首席执行官Kwak Noh-jung在新闻发布会上表示,其HBM芯片产能几乎已被预订满到明年。SK海力士NAND先进工艺集成副总裁Oh Hae-soon表示,NAND闪存是AI时代的另一个前景光明的部分她表示:“随着对大规模AI服务器的需求不断增长,eSSD等NAND解决方案开始受到业界关注。”新兴存储芯片SK海力士革命技术中心 (RTC)副总裁Yi Jae-yun表示,公司还在密切关注新兴存储芯片,如仅选择器存储器 (SOM)、自旋存储器和突触存储器,这些芯片具有超高速、高容量和较低的价格,以及磁性 RAM (MRAM)、电阻式 RAM (RRAM) 和相变存储器 (PCM) 芯片。分析师表示,在存储芯片制造商中,SK海力士是AI应用爆炸式增长的最大受益者,因为它是NVIDIA Corp.的最大AI芯片供应商,而NVIDIA控制着80%的AI芯片市场。SK集团董事长崔泰源最近在接受日本媒体日经新闻采访时表示,如果SK海力士看到AI芯片融资需求,该公司正在考虑在韩国或美国建立HBM工厂的可能性。 ... PC版: 手机版:

封面图片

HBM之后,DRAM的新战场

HBM之后,DRAM的新战场 三星电子、SK 海力士、美光三大存储器半导体公司之间的竞争,正从高带宽存储器(HBM)扩大到图形 DRAM,即图形双倍数据速率(GDDR)。图形 DRAM 的开发重点是通过拓宽数据传输路径来提高处理速度和效率。它不仅用于 AI 加速器,还用于加密货币挖掘。随着 AI PC 和其他设备上 AI 终端即将发布,相关市场预计将迅速增长。2023年2月,三星在国际固态电路会议(ISSCC)上首次展示了37Gbps的GDDR7 DRAM。紧接着,SK海力士在2023年3月于美国圣何塞举行的“NVIDIA GTC”上,推出了比三星电子和美光更快的40Gbps GDDR7。他们在本月初于台湾举行的“Computex 2024”上也将GDDR7纳入了参展产品中。最大带宽提升至每秒128GB,比上一代GDDR6增加了一倍,功率效率提高了40%。6月4日,美光在台湾举办的“Computex 2024”上推出了新一代GDDR7,介绍称最高速度可达32Gbps,与上一代相比带宽提升60%,功率效率提升50%。据业内人士 6 月 21 日透露,三家存储器公司正通过推出比上一代速度更快、更省电的下一代产品,为全面量产竞争做准备。随着 AI PC 和其他设备上 AI 终端的发布,图形 DRAM 市场预计将快速增长。市场研究公司 Omdia 预测,到今年年底,图形 DRAM 将占整个 DRAM 市场的 15%,比 2022 年的 7% 翻一番。尤其是,由于预计 NVIDIA 将在其下一代笔记本电脑 GPU GeForce RTX50 上配备下一代 GDDR7,预计这三家公司为赢得 NVIDIA 青睐而展开的竞争将愈演愈烈。GDDR7 是下一代图形 DRAM 产品,旨在在 PC 和游戏机中无延迟地处理大型 3D 图形数据。除了 HBM 之外,GDDR 被认为是现有速度最快的内存。它主要用于笔记本电脑和游戏机的显卡,可提高高清视频和高性能游戏的图形处理速度。在加密货币热潮期间,它也作为虚拟资产挖矿的内存而广受欢迎。随着近来人工智能的兴起,快速处理大量数据的需求不断增加,GDDR 的使用范围也不断扩大。因此,它已成为三家内存公司与 HBM 并驾齐驱的另一个战场。这三家公司竞相为 NVIDIA 的 GPU 供应 HBM,在 GDDR 方面也展开了类似的竞争。三家内存公司预计将于今年下半年全面量产 GDDR7。与 HBM 相比,GDDR7 的数据处理速度更快,价格也相对较低,预计在人工智能时代,GDDR7 的使用范围将进一步扩大。一位行业专家表示:“继 HBM 之后,图形 DRAM 成为战场。”他们补充道:“GDDR 是 NVIDIA GPU 的‘最佳朋友’DRAM”,强调了 GDDR 在增强 GPU 性能方面的关键作用。随着行业为下一波技术进步做好准备,三星电子、SK 海力士和美光之间的竞争将决定图形 DRAM 市场的未来。 ... PC版: 手机版:

封面图片

SK hynix宣布与台积电合作开发用于HBM4存储芯片的封装技术

SK hynix宣布与台积电合作开发用于HBM4存储芯片的封装技术 SK hynix 表示,与全球顶级代工厂台积电的合作将带来更多的 HBM 技术创新。通过产品设计、代工厂和存储器供应商之间的三方合作,此次合作有望在存储器性能方面实现突破。两家公司将首先致力于提高安装在 HBM 封装最底部的基础芯片的性能。HBM 是在采用 TSV 技术的基底芯片上堆叠核心 DRAM 芯片,并通过 TSV 将 DRAM 堆叠中的固定层数与核心芯片垂直连接成 HBM 封装。位于底部的基础芯片连接到 GPU,由 GPU 控制 HBM。SK hynix 采用专有技术制造 HBM3E 以下的基础芯片,但计划在 HBM4 的基础芯片上采用台积电的先进逻辑工艺,这样就可以在有限的空间内封装更多的功能。这也有助于 SK hynix 生产定制的 HBM,满足客户对性能和能效的需求。SK hynix和台积电还同意合作优化SK hynix的HBM和台积电的CoWoS技术的整合,同时合作应对客户在HBM方面的共同要求。K hynix 总裁兼 AI Infra 负责人 Justin Kim 说:"我们期待与台积电建立强大的合作伙伴关系,帮助我们加快与客户的开放式合作,并开发出业界性能最佳的 HBM4。有了这次合作,我们将通过增强在定制存储器平台领域的竞争力,进一步巩固我们作为全面人工智能存储器供应商的市场领导地位。""多年来,台积电和 SK hynix 已经建立了牢固的合作伙伴关系。多年来,台积电与SK hynix已经建立了稳固的合作关系,我们共同致力于整合最先进的逻辑和最先进的HBM,提供全球领先的人工智能解决方案。展望下一代 HBM4,我们有信心继续紧密合作,提供最佳集成解决方案,为我们的共同客户开启新的人工智能创新。" ... PC版: 手机版:

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人