AI推理速度提升超10倍 Groq LPU能否取代英伟达GPU?

AI推理速度提升超10倍 Groq LPU能否取代英伟达GPU? 推理速度比GPU快10倍,功耗仅1/10据介绍,Groq的大模型推理芯片是全球首个LPU(Language Processing Unit)方案,是一款基于全新的TSA 架构的Tensor Streaming Processor (TSP) 芯片,旨在提高机器学习和人工智能等计算密集型工作负载的性能。虽然Groq的LPU并没有采用更本高昂的尖端制程工艺,而是选择了14nm制程,但是凭借自研的TSA 架构,Groq LPU 芯片具有高度的并行处理能力,可以同时处理数百万个数据流,并该芯片还集成了230MB容量的SRAM来替代DRAM,以保证内存带宽,其片上内存带宽高达80TB/s。根据官方的数据显示,Groq的LPU芯片的性能表现相当出色,可以提供高达1000 TOPS (Tera Operations Per Second) 的计算能力,并且在某些机器学习模型上的性能表现可以比常规的 GPU 和 TPU 提升10到100倍。Groq表示,基于其LPU芯片的云服务器在Llama2或Mistreal模型在计算和响应速度上远超基于NVIDIA AI GPU的ChatGPT,其每秒可以生成高达500个 token。相比之下,目前ChatGPT-3.5的公开版本每秒只能生成大约40个token。由于ChatGPT-3.5主要是基于NVIDIA的GPU,也就是说,Groq LPU芯片的响应速度达到了NVIDIA  GPU的10倍以上。Groq表示,相对于其他云平台厂商的大模型推理性能,基于其LPU芯片的云服务器的大模型推理性能最终实现了比其他云平台厂商快18倍。另外,在能耗方面,NVIDIAGPU需要大约10到30焦耳才能生成响应中的tokens,而Groq LPU芯片仅需1到3焦耳,在推理速度大幅提升10倍的同时,其能耗成本仅有NVIDIAGPU的十分之一,这等于是性价比提高了100倍。Groq公司在演示中展示了其芯片的强大性能,支持Mistral AI的Mixtral8x7B SMoE,以及Meta的Llama2的7B和70B等多种模型,支持使用4096字节的上下文长度,并可直接体验Demo。不仅如此,Groq还喊话各大公司,扬言在三年内超越NVIDIA。目前该公司的LPU推理芯片在第三方网站上的售价为2万多美元,低于NVIDIA H100的2.5-3万美元。资料显示,Groq 是一家成立于2016年人工智能硬件初创公司,核心团队来源于谷歌最初的张量处理单元(TPU)工程团队。Groq 创始人兼CEO Jonathan Ross是谷歌TPU项目的核心研发人员。该公司硬件工程副总裁Jim Miller 曾是亚马逊云计算服务AWS设计算力硬件的负责人,还曾在英特尔领导了所有 Pentium II 工程。目前该公司筹集了超过 6200 万美元。为何采用大容量SRAM?Groq LPU芯片与大多数其他初创公司和现有的AI处理器有着截然不同的时序指令集计算机(Temporal Instruction Set Computer)架构,它被设计为一个强大的单线程流处理器,配备了专门设计的指令集,旨在利用张量操作和张量移动,使机器学习模型能够更有效地执行。该架构的独特之处在于执行单元、片内的SRAM内存和其他执行单元之间的交互。它无需像使用HBM(高带宽内存)的GPU那样频繁地从内存中加载数据。Groq 的神奇之处不仅在于硬件,还在于软件。软件定义的硬件在这里发挥着重要作用。Groq 的软件将张量流模型或其他深度学习模型编译成独立的指令流,并提前进行高度协调和编排。编排来自编译器。它提前确定并计划整个执行,从而实现非常确定的计算。“这种确定性来自于我们的编译器静态调度所有指令单元的事实。这使我们无需进行任何激进的推测即可公开指令级并行性。芯片上没有分支目标缓冲区或缓存代理,”Groq 的首席架构师 Dennis Abts 解释道。Groq LPU芯片为了追求性能最大化,因此添加了更多SRAM内存和执行块。SRAM全名为“静态随机存取存储器”(Static Random-Access Memory)是随机存取存储器的一种。所谓的“静态”,是指这种存储器只要保持通电,里面储存的数据就可以恒常保持。相对之下,动态随机存取存储器(DRAM)里面所储存的数据则需要周期性地更新。自SRAM推出60多年来,其一直是低延迟和高可靠性应用的首选存储器,事实上,对于 AI/ML 应用来说,SRAM 不仅仅具有其自身的优势。SRAM 对于 AI 至关重要,尤其是嵌入式 SRAM,它是性能最高的存储器,可以将其直接与高密度逻辑核心集成在一起。目前SRAM也是被诸多CPU集成在片内(更靠近CPU计算单元),作为CPU的高速缓存,使得CPU可以更直接、更快速的从SRAM中获取重要的数据,无需去DRAM当中读取。只不过,当前旗舰级CPU当中的SRAM容量最多也仅有几十个MB。Groq之所以选择使用大容量的 SRAM来替代DRAM 内存的原因主要有以下几点:1、SRAM 内存的访问速度比 DRAM 内存快得多,这意味着 LPU 芯片更快速地处理数据,从而提高计算性能。2、SRAM 内存没有 DRAM 内存的刷新延迟,这意味着LPU芯片也可以更高效地处理数据,减少延迟带来的影响。3、SRAM 内存的功耗比 DRAM 内存低,这意味着LPU芯片可以更有效地管理能耗,从而提高效率。但是,对于SRAM来说,其也有着一些劣势:1、面积更大:在逻辑晶体管随着CMOS工艺持续微缩的同时,SRAM的微缩却十分的困难。事实上,早在 20nm时代,SRAM 就无法随着逻辑晶体管的微缩相应地微缩。2、容量小:SRAM 的容量比 DRAM 小得多,这是因为每个bit的数据需要更多的晶体管来存储,再加上SRAM的微缩非常困难,使得相同面积下,SRAM容量远低于DRAM等存储器。这也使得SRAM在面对需要存储大量数据时的应用受到了限制。3、成本高:SRAM 的成本比 DRAM要高得多,再加上相同容量下,SRAM需要更多的晶体管来存储数据,这也使得其成本更高。总的来说,虽然SRAM 在尺寸、容量和成本等方面具有一些劣势,这些劣势限制了其在某些应用中的应用,但是 SRAM 的访问速度比 DRAM 快得多,这使得它在某些计算密集型应用中表现得非常出色。Groq LPU 芯片采用的大容量 SRAM 内存可以提供更高的带宽(高达80TB/s)、更低的功耗和更低的延迟,从而提高机器学习和人工智能等计算密集型工作负载的效率。那么,与目前AI GPU当中所搭载的 HBM 内存相比,Groq LPU 芯片集成的 SRAM 内存又有何优势和劣势呢?Groq LPU 芯片的 SRAM 内存容量虽然有230MB,但是相比之下AI GPU 中的 HBM 容量通常都有数十GB(比如NVIDIA H100,其集成了80GB HBM),这也意味着LPU 芯片可能无法处理更大的数据集和更复杂的模型。相同容量下,SRAM的成本也比HBM更高。不过,与HBM 相比,Groq LPU 芯片的所集成的 SRAM 的仍然有着带宽更快(NVIDIA H100的HBM带宽仅3TB/s)、功耗更低、延迟更低的优势。能否替代NVIDIA H00?虽然Groq公布的数据似乎表明,其LPU芯片的推理速度达到了NVIDIA GPU的10倍以上,并且能耗成本仅是它十分之一,等于是性价比提高了100倍。但是,Groq并且明确指出其比较的是NVIDIA的哪款GPU产品。由于目前NVIDIA最主流的AI GPU是H100,因此,我们就拿NVIDIA H100来与Groq LPU来做比较。由于Groq LPU只有230MB的片上SRAM来作为内存,因此,如果要运行Llama-2 70b模型,即使将Llama 2 70b量化到INT8精度,仍然需要70GB左右的内存。即使完全忽略内存消耗,也需要305张Groq LPU加速卡才够用。如果考虑到内存消耗,可能需要572张Groq LPU加速卡。官方数据显示,Groq LPU的平均功耗为185W,即使不计算外围设备的功耗,572张Groq LPU加速卡的总功耗也高达105.8kW。假设一张Groq LPU加速卡的价格为2万美元,因此,购买572张卡的成本高达1144万美元(规模采购价格应该可以更低)。根据人工智能科学家贾扬清分享的数据显示,目前,数据中心每月每千瓦的平均价格约为20美元,这意味着572张Groq LPU加速卡每年的电费为105.8*200*12=25.4万美元。贾扬清还表示,使用4张NVIDIA H100加速卡就可以实现572张Groq LPU一半的性能,这意味着一个8张H100的服务器的性能大致相当于572张Groq LPU。而8张H100加速卡... PC版: 手机版:

相关推荐

封面图片

英伟达发布下一代AI计算芯片 HGX H200 GPU

英伟达发布下一代AI计算芯片 HGX H200 GPU NVIDIA 今天宣布推出 NVIDIA HGX™ H200,为全球领先的 AI 计算平台带来强大动力。该平台基于 NVIDIA Hopper™ 架构,配备 NVIDIA H200 Tensor Core GPU 和高级内存,可处理生成 AI 和高性能计算工作负载的海量数据。 NVIDIA H200 是首款提供 HBM3e 的 GPU,HBM3e 是更快、更大的内存,可加速生成式 AI 和大型语言模型,同时推进 HPC 工作负载的科学计算。借助 HBM3e,NVIDIA H200 以每秒 4.8 TB 的速度提供 141GB 内存,与前一代 NVIDIA A100 相比,容量几乎翻倍,带宽增加 2.4 倍。 全球领先的服务器制造商和云服务提供商采用 H200 的系统预计将于 2024 年第二季度开始发货。

封面图片

[整理]k_zer0s老哥对Groq的LPU为什么能有这么快的推理速度做了相对详细的解释:

[整理]k_zer0s老哥对Groq的LPU为什么能有这么快的推理速度做了相对详细的解释: Groq的LPU在处理请求和响应方面,速度超越了Nvidia的GPU。 不同于Nvidia GPU需要依赖高速数据传输,Groq的LPU在其系统中没有采用高带宽存储器(HBM)。它使用的是SRAM,其速度比GPU所用的存储器快约20倍。 鉴于AI的推理计算相较于模型训练需要的数据量远小,Groq的LPU因此更节能。在执行推理任务时,它从外部内存读取的数据更少,消耗的电量也低于Nvidia的GPU。 LPU的工作原理与GPU截然不同。它采用了时序指令集计算机(Temporal Instruction Set Computer)架构,这意味着它无需像使用高带宽存储器(HBM)的GPU那样频繁地从内存中加载数据。这一特点不仅有助于避免HBM短缺的问题,还能有效降低成本。 如果在AI处理场景中采用Groq的LPU,可能就无需为Nvidia GPU配置特殊的存储解决方案。LPU并不像GPU那样对存储速度有极高要求。Groq公司宣称,其技术能够通过其强大的芯片和软件,在AI任务中取代GPU的角色。 来源:

封面图片

推理速度提升十倍!英伟达发布ChatGPT核弹级GPU

推理速度提升十倍!英伟达发布ChatGPT核弹级GPU 当地时间周二,英伟达举办2023年春季GTC大会,黄仁勋穿着标志性皮夹克,向开发者披露最新的硬件和AI应用软件进展。在过去十年里,AI产业经历了历史性的飞跃。从2012年卷积神经网络AlexNet点燃了深度学习领域的“星星之火”,到ChatGPT一鸣惊人。黄仁勋表示,眼下整个AI产业正处于“iPhone时刻”创业公司正在竞相建立颠覆式的商业模型,而业界巨头也在寻找应对之道。GTC大会上,英伟达推出开源量子计算机软件Cuda Quantum,用于构建量子算法;与AT&T(T.N)合作,帮助提高调度服务的效率。 当地时间3月21日,GTC大会,英伟达发布了专为ChatGPT设计的“核弹”GPU(图像芯片)H100 NVL,较之适用于GPT-3的A100,速度提升10倍。#视频 () 来自:雷锋 频道:@kejiqu 群组:@kejiquchat 投稿:@kejiqubot

封面图片

英伟达发布用于AI的"世界上最强大芯片"Blackwell B200 GPU

英伟达发布用于AI的"世界上最强大芯片"Blackwell B200 GPU NVIDIA 首席执行官黄仁勋在 GTC 现场直播中举起他的新 GPU(左边),右边是 H100。NVIDIA 表示,新的 B200 GPU 拥有 2080 亿个晶体管,可提供高达 20petaflops 的 FP4 算力,而 GB200 将两个 GPU 和一个 Grace CPU 结合在一起,可为 LLM 推理工作负载提供 30 倍的性能,同时还可能大大提高效率。NVIDIA 表示,与 H100 相比,它的成本和能耗"最多可降低 25 倍"。NVIDIA 声称,训练一个 1.8 万亿个参数的模型以前需要 8000 个 Hopper GPU 和 15 兆瓦的电力。如今,NVIDIA 首席执行官表示,2000 个 Blackwell GPU 就能完成这项工作,耗电量仅为 4 兆瓦。NVIDIA 表示,在具有 1750 亿个参数的 GPT-3 LLM 基准测试中,GB200 的性能是 H100 的 7 倍,而 NVIDIA 称其训练速度是 H100 的 4 倍。这就是 GB200 的样子。两个 GPU、一个 CPU、一块电路板NVIDIA 介绍说,其中一项关键改进是采用了第二代变压器引擎,通过为每个神经元使用四个比特而不是八个比特,将计算能力、带宽和模型大小提高了一倍(前面提到的 FP4 的 20 petaflops)。第二个关键区别只有在连接大量 GPU 时才会出现:新一代 NVLink 交换机可让 576 个 GPU 相互连接,双向带宽达到每秒 1.8 TB。这就要求 NVIDIA 打造一个全新的网络交换芯片,其中包含 500 亿个晶体管和一些自己的板载计算:NVIDIA 表示,该芯片拥有 3.6 teraflops 的 FP8 处理能力。NVIDIA 表示将通过 Blackwell 增加 FP4 和 FP6NVIDIA 表示,在此之前,由 16 个 GPU 组成的集群有 60% 的时间用于相互通信,只有 40% 的时间用于实际计算。当然,NVIDIA 还指望企业大量购买这些 GPU,并将它们包装成更大的设计,比如 GB200 NVL72,它将 36 个 CPU 和 72 个 GPU 集成到一个液冷机架中,可实现总计 720 petaflops 的 AI 训练性能或 1440 petaflops(又称 1.4exaflops)的推理性能。它内部有近两英里长的电缆,共有 5000 条独立电缆。GB200 NVL72机架上的每个托盘包含两个 GB200 芯片或两个 NVLink 交换机,每个机架有 18 个前者和 9 个后者。NVIDIA 称,其中一个机架总共可支持 27 万亿个参数模型。据传,GPT-4 的参数模型约为 1.7 万亿。该公司表示,亚马逊、Google、微软和甲骨文都已计划在其云服务产品中提供 NVL72 机架,但不清楚它们将购买多少。当然,NVIDIA 也乐于为公司提供其他解决方案。下面是用于 DGX GB200 的 DGX Superpod,它将八个系统合而为一,总共拥有 288 个 CPU、576 个 GPU、240TB 内存和 11.5 exaflops 的 FP4 计算能力。NVIDIA 称,其系统可扩展至数万 GB200 超级芯片,并通过其新型 Quantum-X800 InfiniBand(最多 144 个连接)或 Spectrum-X800 以太网(最多 64 个连接)与 800Gbps 网络连接在一起。我们预计今天不会听到任何关于新游戏 GPU 的消息,因为这一消息是在 NVIDIA 的 GPU 技术大会上发布的,而该大会通常几乎完全专注于 GPU 计算和人工智能,而不是游戏。不过,Blackwell GPU 架构很可能也会为未来的 RTX 50 系列桌面显卡提供算力。 ... PC版: 手机版:

封面图片

SK hynix GDDR7内存将GPU带宽提升至160GB/秒 容量达24Gb

SK hynix GDDR7内存将GPU带宽提升至160GB/秒 容量达24Gb 虽然有报道称第一代 GDDR7 内存产品将使用 28 Gbps 的芯片,容量为 16 GB(2 GB VRAM),但 DRAM 制造商并没有停止展示他们的下一代产品。在GTC 2024上,SK hynix展示了其GDDR7内存模块,它将提供40 Gbps的针脚速度,每个模块的带宽高达160 GB/s。GDDR7 标准的基准速度为 32 Gbps,每个模块的带宽为 128 GB/s,因此未来的 GDDR7 变体在带宽方面将提升 25%。三星也在加速 GDDR7 DRAM 的生产,该公司还在 GTC 上展示了其内存模块,不过是 16 Gb 和 32 Gbps 两种规格。该公司还展示了引脚速度 37 Gbps 的模块。此外,该公司还将推出不同容量的x显存,目前已上市的最高容量为 24 Gb,基准容量为 16 Gb。使用 16 Gb 模块可获得 2 GB 的 VRAM 容量,使用 24 Gb 模块可获得 3 GB 的 VRAM 容量。但我们已经报道过 JEDEC 公布的规格,这些规格证实 GDDR7 将达到 48 Gbps 的速度和 64 Gb 的密度(8 GB VRAM 容量)。这将标志着显存容量的大幅提升,256 位标准接口可提供 64 GB 容量。相比之下,目前 256 位总线接口使用 16 Gb DRAM 模块可达到的最大容量为 16 GB。24GB DRAM 模块可将容量提升至 24GB。但同样,这些速度和容量也不是我们一开始就能期待的。这样的规格可能要到 2026-2027 年之后才能实现,而现在距离 2026-2027 年还有很多年。以下是我们可以期待的第一代 GDDR7 内存产品:512 位/28 Gbps/32GB(最大内存)/1792 GB/s(最大带宽)384 位 / 28 Gbps / 24 GB(最大内存)/ 1344 GB/秒(最大带宽)256 位 / 28 Gbps / 16 GB(最大内存)/ 896.0 GB/秒(最大带宽)192 位 / 28 Gbps / 12 GB(最大内存)/ 672.0 GB/秒(最大带宽)128 位/28 Gbps/8GB(最大内存)/448.0 GB/s(最大带宽)以下是 SK hynix 40 Gbps 和 24 Gb GDDR7 DRAM 产品上市后的预期:512 位 / 40 Gbps / 48 GB(最大内存)/ 2560 GB/秒(最大带宽)384 位/40 Gbps/36 GB(最大内存)/1920 GB/秒(最大带宽)256 位/40 Gbps/24 GB(最大内存)/1280 GB/秒(最大带宽)192 位/40 Gbps/18 GB(最大内存)/960.0 GB/秒(最大带宽)128 位 / 40 Gbps / 12 GB(最大内存)/ 640.0 GB/秒(最大带宽)除了GDDR7内存模块,SK hynix还展示了DDR5 MCR DIMM,每个模块的容量达64 GB,速度达8800 MT/s,电压为1.1V。 ... PC版: 手机版:

封面图片

戴尔在一个机架服务器内塞了72块NVIDIA B200 GPU加速卡

戴尔在一个机架服务器内塞了72块NVIDIA B200 GPU加速卡 即便如此,戴尔依然宣称GPU密度提高了33%,PCIe 5.0通道多了20%,网络扩展能力翻倍。B200加速卡单个功耗达1000W,八卡就是8000W,再加上处理器、内存、硬盘、网卡等其他硬件,风冷自然是无法压制的,而是上了高效水冷,CPU、GPU全覆盖。针对更大规模的GPU计算部署需求,戴尔还支持在单个机架内配备多达72块B200加速卡,依然是水冷。戴尔PowerEdge XE9680L服务器将在下半年上市。 ... PC版: 手机版:

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人