[整理]k_zer0s老哥对Groq的LPU为什么能有这么快的推理速度做了相对详细的解释：

[整理]k_zer0s老哥对Groq的LPU为什么能有这么快的推理速度做了相对详细的解释： Groq的LPU在处理请求和响应方面，速度超越了Nvidia的GPU。不同于Nvidia GPU需要依赖高速数据传输，Groq的LPU在其系统中没有采用高带宽存储器（HBM）。它使用的是SRAM，其速度比GPU所用的存储器快约20倍。鉴于AI的推理计算相较于模型训练需要的数据量远小，Groq的LPU因此更节能。在执行推理任务时，它从外部内存读取的数据更少，消耗的电量也低于Nvidia的GPU。 LPU的工作原理与GPU截然不同。它采用了时序指令集计算机（Temporal Instruction Set Computer）架构，这意味着它无需像使用高带宽存储器（HBM）的GPU那样频繁地从内存中加载数据。这一特点不仅有助于避免HBM短缺的问题，还能有效降低成本。如果在AI处理场景中采用Groq的LPU，可能就无需为Nvidia GPU配置特殊的存储解决方案。LPU并不像GPU那样对存储速度有极高要求。Groq公司宣称，其技术能够通过其强大的芯片和软件，在AI任务中取代GPU的角色。来源：

在Telegram中查看

相关推荐

AI推理速度提升超10倍 Groq LPU能否取代英伟达GPU？

AI推理速度提升超10倍 Groq LPU能否取代英伟达GPU？推理速度比GPU快10倍，功耗仅1/10据介绍，Groq的大模型推理芯片是全球首个LPU（Language Processing Unit）方案，是一款基于全新的TSA 架构的Tensor Streaming Processor (TSP) 芯片，旨在提高机器学习和人工智能等计算密集型工作负载的性能。虽然Groq的LPU并没有采用更本高昂的尖端制程工艺，而是选择了14nm制程，但是凭借自研的TSA 架构，Groq LPU 芯片具有高度的并行处理能力，可以同时处理数百万个数据流，并该芯片还集成了230MB容量的SRAM来替代DRAM，以保证内存带宽，其片上内存带宽高达80TB/s。根据官方的数据显示，Groq的LPU芯片的性能表现相当出色，可以提供高达1000 TOPS (Tera Operations Per Second) 的计算能力，并且在某些机器学习模型上的性能表现可以比常规的 GPU 和 TPU 提升10到100倍。Groq表示，基于其LPU芯片的云服务器在Llama2或Mistreal模型在计算和响应速度上远超基于NVIDIA AI GPU的ChatGPT，其每秒可以生成高达500个 token。相比之下，目前ChatGPT-3.5的公开版本每秒只能生成大约40个token。由于ChatGPT-3.5主要是基于NVIDIA的GPU，也就是说，Groq LPU芯片的响应速度达到了NVIDIA GPU的10倍以上。Groq表示，相对于其他云平台厂商的大模型推理性能，基于其LPU芯片的云服务器的大模型推理性能最终实现了比其他云平台厂商快18倍。另外，在能耗方面，NVIDIAGPU需要大约10到30焦耳才能生成响应中的tokens，而Groq LPU芯片仅需1到3焦耳，在推理速度大幅提升10倍的同时，其能耗成本仅有NVIDIAGPU的十分之一，这等于是性价比提高了100倍。Groq公司在演示中展示了其芯片的强大性能，支持Mistral AI的Mixtral8x7B SMoE，以及Meta的Llama2的7B和70B等多种模型，支持使用4096字节的上下文长度，并可直接体验Demo。不仅如此，Groq还喊话各大公司，扬言在三年内超越NVIDIA。目前该公司的LPU推理芯片在第三方网站上的售价为2万多美元，低于NVIDIA H100的2.5-3万美元。资料显示，Groq 是一家成立于2016年人工智能硬件初创公司，核心团队来源于谷歌最初的张量处理单元（TPU）工程团队。Groq 创始人兼CEO Jonathan Ross是谷歌TPU项目的核心研发人员。该公司硬件工程副总裁Jim Miller 曾是亚马逊云计算服务AWS设计算力硬件的负责人，还曾在英特尔领导了所有 Pentium II 工程。目前该公司筹集了超过 6200 万美元。为何采用大容量SRAM？Groq LPU芯片与大多数其他初创公司和现有的AI处理器有着截然不同的时序指令集计算机（Temporal Instruction Set Computer）架构，它被设计为一个强大的单线程流处理器，配备了专门设计的指令集，旨在利用张量操作和张量移动，使机器学习模型能够更有效地执行。该架构的独特之处在于执行单元、片内的SRAM内存和其他执行单元之间的交互。它无需像使用HBM（高带宽内存）的GPU那样频繁地从内存中加载数据。Groq 的神奇之处不仅在于硬件，还在于软件。软件定义的硬件在这里发挥着重要作用。Groq 的软件将张量流模型或其他深度学习模型编译成独立的指令流，并提前进行高度协调和编排。编排来自编译器。它提前确定并计划整个执行，从而实现非常确定的计算。“这种确定性来自于我们的编译器静态调度所有指令单元的事实。这使我们无需进行任何激进的推测即可公开指令级并行性。芯片上没有分支目标缓冲区或缓存代理，”Groq 的首席架构师 Dennis Abts 解释道。Groq LPU芯片为了追求性能最大化，因此添加了更多SRAM内存和执行块。SRAM全名为“静态随机存取存储器”（Static Random-Access Memory）是随机存取存储器的一种。所谓的“静态”，是指这种存储器只要保持通电，里面储存的数据就可以恒常保持。相对之下，动态随机存取存储器（DRAM）里面所储存的数据则需要周期性地更新。自SRAM推出60多年来，其一直是低延迟和高可靠性应用的首选存储器，事实上，对于 AI/ML 应用来说，SRAM 不仅仅具有其自身的优势。SRAM 对于 AI 至关重要，尤其是嵌入式 SRAM，它是性能最高的存储器，可以将其直接与高密度逻辑核心集成在一起。目前SRAM也是被诸多CPU集成在片内（更靠近CPU计算单元），作为CPU的高速缓存，使得CPU可以更直接、更快速的从SRAM中获取重要的数据，无需去DRAM当中读取。只不过，当前旗舰级CPU当中的SRAM容量最多也仅有几十个MB。Groq之所以选择使用大容量的 SRAM来替代DRAM 内存的原因主要有以下几点：1、SRAM 内存的访问速度比 DRAM 内存快得多，这意味着 LPU 芯片更快速地处理数据，从而提高计算性能。2、SRAM 内存没有 DRAM 内存的刷新延迟，这意味着LPU芯片也可以更高效地处理数据，减少延迟带来的影响。3、SRAM 内存的功耗比 DRAM 内存低，这意味着LPU芯片可以更有效地管理能耗，从而提高效率。但是，对于SRAM来说，其也有着一些劣势：1、面积更大：在逻辑晶体管随着CMOS工艺持续微缩的同时，SRAM的微缩却十分的困难。事实上，早在 20nm时代，SRAM 就无法随着逻辑晶体管的微缩相应地微缩。2、容量小：SRAM 的容量比 DRAM 小得多，这是因为每个bit的数据需要更多的晶体管来存储，再加上SRAM的微缩非常困难，使得相同面积下，SRAM容量远低于DRAM等存储器。这也使得SRAM在面对需要存储大量数据时的应用受到了限制。3、成本高：SRAM 的成本比 DRAM要高得多，再加上相同容量下，SRAM需要更多的晶体管来存储数据，这也使得其成本更高。总的来说，虽然SRAM 在尺寸、容量和成本等方面具有一些劣势，这些劣势限制了其在某些应用中的应用，但是 SRAM 的访问速度比 DRAM 快得多，这使得它在某些计算密集型应用中表现得非常出色。Groq LPU 芯片采用的大容量 SRAM 内存可以提供更高的带宽（高达80TB/s）、更低的功耗和更低的延迟，从而提高机器学习和人工智能等计算密集型工作负载的效率。那么，与目前AI GPU当中所搭载的 HBM 内存相比，Groq LPU 芯片集成的 SRAM 内存又有何优势和劣势呢？Groq LPU 芯片的 SRAM 内存容量虽然有230MB，但是相比之下AI GPU 中的 HBM 容量通常都有数十GB（比如NVIDIA H100，其集成了80GB HBM），这也意味着LPU 芯片可能无法处理更大的数据集和更复杂的模型。相同容量下，SRAM的成本也比HBM更高。不过，与HBM 相比，Groq LPU 芯片的所集成的 SRAM 的仍然有着带宽更快（NVIDIA H100的HBM带宽仅3TB/s）、功耗更低、延迟更低的优势。能否替代NVIDIA H00？虽然Groq公布的数据似乎表明，其LPU芯片的推理速度达到了NVIDIA GPU的10倍以上，并且能耗成本仅是它十分之一，等于是性价比提高了100倍。但是，Groq并且明确指出其比较的是NVIDIA的哪款GPU产品。由于目前NVIDIA最主流的AI GPU是H100，因此，我们就拿NVIDIA H100来与Groq LPU来做比较。由于Groq LPU只有230MB的片上SRAM来作为内存，因此，如果要运行Llama-2 70b模型，即使将Llama 2 70b量化到INT8精度，仍然需要70GB左右的内存。即使完全忽略内存消耗，也需要305张Groq LPU加速卡才够用。如果考虑到内存消耗，可能需要572张Groq LPU加速卡。官方数据显示，Groq LPU的平均功耗为185W，即使不计算外围设备的功耗，572张Groq LPU加速卡的总功耗也高达105.8kW。假设一张Groq LPU加速卡的价格为2万美元，因此，购买572张卡的成本高达1144万美元（规模采购价格应该可以更低）。根据人工智能科学家贾扬清分享的数据显示，目前，数据中心每月每千瓦的平均价格约为20美元，这意味着572张Groq LPU加速卡每年的电费为105.8*200*12=25.4万美元。贾扬清还表示，使用4张NVIDIA H100加速卡就可以实现572张Groq LPU一半的性能，这意味着一个8张H100的服务器的性能大致相当于572张Groq LPU。而8张H100加速卡... PC版：手机版：

Groq LPU人工智能推理芯片的运算表现可与主流厂商媲美

Groq LPU人工智能推理芯片的运算表现可与主流厂商媲美一家人工智能芯片初创公司 Groq 曾长期默默无闻，但现在它利用专为大型语言模型（LLM）（如 GPT、Llama 和 Mistral LLM）设计的语言处理单元（LPU），在提供超快推理速度方面取得了重大进展。Groq LPU 是基于张量流处理器（TSP）架构的单核单元，在 INT8 时可达到 750 TOPS，在 FP16 时可达到 188 TeraFLOPS，具有 320x320 融合点乘矩阵乘法，此外还有 5120 个矢量 ALU。Groq LPU 拥有 80 TB/s 的带宽，并具有大规模并发能力，其本地 SRAM 容量为 230 MB。所有这些共同作用，为 Groq 提供了出色的性能，在过去几天的互联网上掀起了波澜。在Mixtral 8x7B 模型中，Groq LPU 的推理速度为每秒 480 个令牌，在业内处于领先地位。在 Llama 2 70B 等上下文长度为 4096 个令牌的模型中，Groq 每秒可提供 300 个令牌，而在上下文长度为 2048 个令牌的较小 Llama 2 7B 中，Groq LPU 每秒可输出 750 个令牌。根据LLMPerf Leaderboard 的数据，Groq LPU 在推断 LLMs Llama 时击败了基于 GPU 的云提供商，其配置参数从 70 亿到 700 亿不等。在令牌吞吐量（输出）和到第一个令牌的时间（延迟）方面，Groq处于领先地位，实现了最高的吞吐量和第二低的延迟。ChatGPT 采用 GPT-3.5 免费版，每秒可输出约 40 个令牌。目前的开源 LLM（如 Mixtral 8x7B）可以在大多数基准测试中击败 GPT 3.5，现在这些开源 LLM 的运行速度几乎可以达到 500 令牌每秒。随着像 Groq 的 LPU 这样的快速推理芯片开始普及，等待聊天机器人回应的日子似乎开始慢慢消失了。这家人工智能初创公司直接威胁到英伟达（NVIDIA）、AMD 和英特尔提供的推理硬件，但业界是否愿意采用 LPU 仍是个问题，您可以在这里进行试用： ... PC版：手机版：

英伟达发布下一代AI计算芯片 HGX H200 GPU

英伟达发布下一代AI计算芯片 HGX H200 GPU NVIDIA 今天宣布推出 NVIDIA HGX™ H200，为全球领先的 AI 计算平台带来强大动力。该平台基于 NVIDIA Hopper™ 架构，配备 NVIDIA H200 Tensor Core GPU 和高级内存，可处理生成 AI 和高性能计算工作负载的海量数据。 NVIDIA H200 是首款提供 HBM3e 的 GPU，HBM3e 是更快、更大的内存，可加速生成式 AI 和大型语言模型，同时推进 HPC 工作负载的科学计算。借助 HBM3e，NVIDIA H200 以每秒 4.8 TB 的速度提供 141GB 内存，与前一代 NVIDIA A100 相比，容量几乎翻倍，带宽增加 2.4 倍。全球领先的服务器制造商和云服务提供商采用 H200 的系统预计将于 2024 年第二季度开始发货。

HBM之后，DRAM的新战场

HBM之后，DRAM的新战场三星电子、SK 海力士、美光三大存储器半导体公司之间的竞争，正从高带宽存储器（HBM）扩大到图形 DRAM，即图形双倍数据速率（GDDR）。图形 DRAM 的开发重点是通过拓宽数据传输路径来提高处理速度和效率。它不仅用于 AI 加速器，还用于加密货币挖掘。随着 AI PC 和其他设备上 AI 终端即将发布，相关市场预计将迅速增长。2023年2月，三星在国际固态电路会议（ISSCC）上首次展示了37Gbps的GDDR7 DRAM。紧接着，SK海力士在2023年3月于美国圣何塞举行的“NVIDIA GTC”上，推出了比三星电子和美光更快的40Gbps GDDR7。他们在本月初于台湾举行的“Computex 2024”上也将GDDR7纳入了参展产品中。最大带宽提升至每秒128GB，比上一代GDDR6增加了一倍，功率效率提高了40%。6月4日，美光在台湾举办的“Computex 2024”上推出了新一代GDDR7，介绍称最高速度可达32Gbps，与上一代相比带宽提升60%，功率效率提升50%。据业内人士 6 月 21 日透露，三家存储器公司正通过推出比上一代速度更快、更省电的下一代产品，为全面量产竞争做准备。随着 AI PC 和其他设备上 AI 终端的发布，图形 DRAM 市场预计将快速增长。市场研究公司 Omdia 预测，到今年年底，图形 DRAM 将占整个 DRAM 市场的 15%，比 2022 年的 7% 翻一番。尤其是，由于预计 NVIDIA 将在其下一代笔记本电脑 GPU GeForce RTX50 上配备下一代 GDDR7，预计这三家公司为赢得 NVIDIA 青睐而展开的竞争将愈演愈烈。GDDR7 是下一代图形 DRAM 产品，旨在在 PC 和游戏机中无延迟地处理大型 3D 图形数据。除了 HBM 之外，GDDR 被认为是现有速度最快的内存。它主要用于笔记本电脑和游戏机的显卡，可提高高清视频和高性能游戏的图形处理速度。在加密货币热潮期间，它也作为虚拟资产挖矿的内存而广受欢迎。随着近来人工智能的兴起，快速处理大量数据的需求不断增加，GDDR 的使用范围也不断扩大。因此，它已成为三家内存公司与 HBM 并驾齐驱的另一个战场。这三家公司竞相为 NVIDIA 的 GPU 供应 HBM，在 GDDR 方面也展开了类似的竞争。三家内存公司预计将于今年下半年全面量产 GDDR7。与 HBM 相比，GDDR7 的数据处理速度更快，价格也相对较低，预计在人工智能时代，GDDR7 的使用范围将进一步扩大。一位行业专家表示：“继 HBM 之后，图形 DRAM 成为战场。”他们补充道：“GDDR 是 NVIDIA GPU 的‘最佳朋友’DRAM”，强调了 GDDR 在增强 GPU 性能方面的关键作用。随着行业为下一波技术进步做好准备，三星电子、SK 海力士和美光之间的竞争将决定图形 DRAM 市场的未来。 ... PC版：手机版：

SK海力士宣布下一代HBM计划

SK海力士宣布下一代HBM计划在最近一次负责HBM芯片的新任高管圆桌讨论中，SK海力士副总裁与营销负责人金基泰表示：“纵观当前的市场形势，大型科技客户正在加快新产品的发布时间，以确保在AI领域领先。因此，我们也在提前讨论今年和明年的计划，以确保及时供应下一代HBM产品。” SK海力士是三星电子全球第二大存储器芯片制造商，但却是HBM的主要供应商，HBM是一种对生成式AI设备至关重要的高性能堆栈式DRAM芯片。该公司是首家于2013年开发第一代HBM芯片的内存供应商，并在随后几年推出了后续产品HBM2、HBM2E 以及最新的第四代 HBM3 芯片。2023年 4 月，SK 开发出全球首款12层HBM3 DRAM 产品，内存容量为 24 千兆字节 (GB)，为业内最大。2023年 8 月，该公司推出了业界性能最佳的第五代 HBM DRAM HBM3E，用于 AI 应用，并向其客户 NVIDIA Corp. 提供了样品以进行性能评估。今年 3 月，SK 海力士开始大批量生产 HBM3E 芯片，这是业界推出的另一个公司，同时表示将把第六代 HBM4 芯片的量产提前到 2025 年。大容量 NAND 受到业界关注SK 海力士副总裁兼 HBM 工艺集成（PI）负责人 Kwon Un-oh 表示：“通过先发制人地确保技术和量产专业知识，我们已经能够建立起稳固的竞争力。”先进封装开发部副总裁兼负责人Son Ho-young敦促公司为更好的存储器和系统芯片的融合。SK海力士表示，受AI学习和推理高端芯片需求不断增长的推动，预计今年全球DRAM市场规模将达到65%，达到117万亿韩元（850亿美元）。本月初，首席执行官Kwak Noh-jung在新闻发布会上表示，其HBM芯片产能几乎已被预订满到明年。SK海力士NAND先进工艺集成副总裁Oh Hae-soon表示，NAND闪存是AI时代的另一个前景光明的部分她表示：“随着对大规模AI服务器的需求不断增长，eSSD等NAND解决方案开始受到业界关注。”新兴存储芯片SK海力士革命技术中心 (RTC)副总裁Yi Jae-yun表示，公司还在密切关注新兴存储芯片，如仅选择器存储器 (SOM)、自旋存储器和突触存储器，这些芯片具有超高速、高容量和较低的价格，以及磁性 RAM (MRAM)、电阻式 RAM (RRAM) 和相变存储器 (PCM) 芯片。分析师表示，在存储芯片制造商中，SK海力士是AI应用爆炸式增长的最大受益者，因为它是NVIDIA Corp.的最大AI芯片供应商，而NVIDIA控制着80%的AI芯片市场。SK集团董事长崔泰源最近在接受日本媒体日经新闻采访时表示，如果SK海力士看到AI芯片融资需求，该公司正在考虑在韩国或美国建立HBM工厂的可能性。 ... PC版：手机版：

SK hynix宣布与台积电合作开发用于HBM4存储芯片的封装技术

SK hynix宣布与台积电合作开发用于HBM4存储芯片的封装技术 SK hynix 表示，与全球顶级代工厂台积电的合作将带来更多的 HBM 技术创新。通过产品设计、代工厂和存储器供应商之间的三方合作，此次合作有望在存储器性能方面实现突破。两家公司将首先致力于提高安装在 HBM 封装最底部的基础芯片的性能。HBM 是在采用 TSV 技术的基底芯片上堆叠核心 DRAM 芯片，并通过 TSV 将 DRAM 堆叠中的固定层数与核心芯片垂直连接成 HBM 封装。位于底部的基础芯片连接到 GPU，由 GPU 控制 HBM。SK hynix 采用专有技术制造 HBM3E 以下的基础芯片，但计划在 HBM4 的基础芯片上采用台积电的先进逻辑工艺，这样就可以在有限的空间内封装更多的功能。这也有助于 SK hynix 生产定制的 HBM，满足客户对性能和能效的需求。SK hynix和台积电还同意合作优化SK hynix的HBM和台积电的CoWoS技术的整合，同时合作应对客户在HBM方面的共同要求。K hynix 总裁兼 AI Infra 负责人 Justin Kim 说："我们期待与台积电建立强大的合作伙伴关系，帮助我们加快与客户的开放式合作，并开发出业界性能最佳的 HBM4。有了这次合作，我们将通过增强在定制存储器平台领域的竞争力，进一步巩固我们作为全面人工智能存储器供应商的市场领导地位。""多年来，台积电和 SK hynix 已经建立了牢固的合作伙伴关系。多年来，台积电与SK hynix已经建立了稳固的合作关系，我们共同致力于整合最先进的逻辑和最先进的HBM，提供全球领先的人工智能解决方案。展望下一代 HBM4，我们有信心继续紧密合作，提供最佳集成解决方案，为我们的共同客户开启新的人工智能创新。" ... PC版：手机版：

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人