AI推理速度提升超10倍 Groq LPU能否取代英伟达GPU?

AI推理速度提升超10倍 Groq LPU能否取代英伟达GPU? 推理速度比GPU快10倍,功耗仅1/10据介绍,Groq的大模型推理芯片是全球首个LPU(Language Processing Unit)方案,是一款基于全新的TSA 架构的Tensor Streaming Processor (TSP) 芯片,旨在提高机器学习和人工智能等计算密集型工作负载的性能。虽然Groq的LPU并没有采用更本高昂的尖端制程工艺,而是选择了14nm制程,但是凭借自研的TSA 架构,Groq LPU 芯片具有高度的并行处理能力,可以同时处理数百万个数据流,并该芯片还集成了230MB容量的SRAM来替代DRAM,以保证内存带宽,其片上内存带宽高达80TB/s。根据官方的数据显示,Groq的LPU芯片的性能表现相当出色,可以提供高达1000 TOPS (Tera Operations Per Second) 的计算能力,并且在某些机器学习模型上的性能表现可以比常规的 GPU 和 TPU 提升10到100倍。Groq表示,基于其LPU芯片的云服务器在Llama2或Mistreal模型在计算和响应速度上远超基于NVIDIA AI GPU的ChatGPT,其每秒可以生成高达500个 token。相比之下,目前ChatGPT-3.5的公开版本每秒只能生成大约40个token。由于ChatGPT-3.5主要是基于NVIDIA的GPU,也就是说,Groq LPU芯片的响应速度达到了NVIDIA  GPU的10倍以上。Groq表示,相对于其他云平台厂商的大模型推理性能,基于其LPU芯片的云服务器的大模型推理性能最终实现了比其他云平台厂商快18倍。另外,在能耗方面,NVIDIAGPU需要大约10到30焦耳才能生成响应中的tokens,而Groq LPU芯片仅需1到3焦耳,在推理速度大幅提升10倍的同时,其能耗成本仅有NVIDIAGPU的十分之一,这等于是性价比提高了100倍。Groq公司在演示中展示了其芯片的强大性能,支持Mistral AI的Mixtral8x7B SMoE,以及Meta的Llama2的7B和70B等多种模型,支持使用4096字节的上下文长度,并可直接体验Demo。不仅如此,Groq还喊话各大公司,扬言在三年内超越NVIDIA。目前该公司的LPU推理芯片在第三方网站上的售价为2万多美元,低于NVIDIA H100的2.5-3万美元。资料显示,Groq 是一家成立于2016年人工智能硬件初创公司,核心团队来源于谷歌最初的张量处理单元(TPU)工程团队。Groq 创始人兼CEO Jonathan Ross是谷歌TPU项目的核心研发人员。该公司硬件工程副总裁Jim Miller 曾是亚马逊云计算服务AWS设计算力硬件的负责人,还曾在英特尔领导了所有 Pentium II 工程。目前该公司筹集了超过 6200 万美元。为何采用大容量SRAM?Groq LPU芯片与大多数其他初创公司和现有的AI处理器有着截然不同的时序指令集计算机(Temporal Instruction Set Computer)架构,它被设计为一个强大的单线程流处理器,配备了专门设计的指令集,旨在利用张量操作和张量移动,使机器学习模型能够更有效地执行。该架构的独特之处在于执行单元、片内的SRAM内存和其他执行单元之间的交互。它无需像使用HBM(高带宽内存)的GPU那样频繁地从内存中加载数据。Groq 的神奇之处不仅在于硬件,还在于软件。软件定义的硬件在这里发挥着重要作用。Groq 的软件将张量流模型或其他深度学习模型编译成独立的指令流,并提前进行高度协调和编排。编排来自编译器。它提前确定并计划整个执行,从而实现非常确定的计算。“这种确定性来自于我们的编译器静态调度所有指令单元的事实。这使我们无需进行任何激进的推测即可公开指令级并行性。芯片上没有分支目标缓冲区或缓存代理,”Groq 的首席架构师 Dennis Abts 解释道。Groq LPU芯片为了追求性能最大化,因此添加了更多SRAM内存和执行块。SRAM全名为“静态随机存取存储器”(Static Random-Access Memory)是随机存取存储器的一种。所谓的“静态”,是指这种存储器只要保持通电,里面储存的数据就可以恒常保持。相对之下,动态随机存取存储器(DRAM)里面所储存的数据则需要周期性地更新。自SRAM推出60多年来,其一直是低延迟和高可靠性应用的首选存储器,事实上,对于 AI/ML 应用来说,SRAM 不仅仅具有其自身的优势。SRAM 对于 AI 至关重要,尤其是嵌入式 SRAM,它是性能最高的存储器,可以将其直接与高密度逻辑核心集成在一起。目前SRAM也是被诸多CPU集成在片内(更靠近CPU计算单元),作为CPU的高速缓存,使得CPU可以更直接、更快速的从SRAM中获取重要的数据,无需去DRAM当中读取。只不过,当前旗舰级CPU当中的SRAM容量最多也仅有几十个MB。Groq之所以选择使用大容量的 SRAM来替代DRAM 内存的原因主要有以下几点:1、SRAM 内存的访问速度比 DRAM 内存快得多,这意味着 LPU 芯片更快速地处理数据,从而提高计算性能。2、SRAM 内存没有 DRAM 内存的刷新延迟,这意味着LPU芯片也可以更高效地处理数据,减少延迟带来的影响。3、SRAM 内存的功耗比 DRAM 内存低,这意味着LPU芯片可以更有效地管理能耗,从而提高效率。但是,对于SRAM来说,其也有着一些劣势:1、面积更大:在逻辑晶体管随着CMOS工艺持续微缩的同时,SRAM的微缩却十分的困难。事实上,早在 20nm时代,SRAM 就无法随着逻辑晶体管的微缩相应地微缩。2、容量小:SRAM 的容量比 DRAM 小得多,这是因为每个bit的数据需要更多的晶体管来存储,再加上SRAM的微缩非常困难,使得相同面积下,SRAM容量远低于DRAM等存储器。这也使得SRAM在面对需要存储大量数据时的应用受到了限制。3、成本高:SRAM 的成本比 DRAM要高得多,再加上相同容量下,SRAM需要更多的晶体管来存储数据,这也使得其成本更高。总的来说,虽然SRAM 在尺寸、容量和成本等方面具有一些劣势,这些劣势限制了其在某些应用中的应用,但是 SRAM 的访问速度比 DRAM 快得多,这使得它在某些计算密集型应用中表现得非常出色。Groq LPU 芯片采用的大容量 SRAM 内存可以提供更高的带宽(高达80TB/s)、更低的功耗和更低的延迟,从而提高机器学习和人工智能等计算密集型工作负载的效率。那么,与目前AI GPU当中所搭载的 HBM 内存相比,Groq LPU 芯片集成的 SRAM 内存又有何优势和劣势呢?Groq LPU 芯片的 SRAM 内存容量虽然有230MB,但是相比之下AI GPU 中的 HBM 容量通常都有数十GB(比如NVIDIA H100,其集成了80GB HBM),这也意味着LPU 芯片可能无法处理更大的数据集和更复杂的模型。相同容量下,SRAM的成本也比HBM更高。不过,与HBM 相比,Groq LPU 芯片的所集成的 SRAM 的仍然有着带宽更快(NVIDIA H100的HBM带宽仅3TB/s)、功耗更低、延迟更低的优势。能否替代NVIDIA H00?虽然Groq公布的数据似乎表明,其LPU芯片的推理速度达到了NVIDIA GPU的10倍以上,并且能耗成本仅是它十分之一,等于是性价比提高了100倍。但是,Groq并且明确指出其比较的是NVIDIA的哪款GPU产品。由于目前NVIDIA最主流的AI GPU是H100,因此,我们就拿NVIDIA H100来与Groq LPU来做比较。由于Groq LPU只有230MB的片上SRAM来作为内存,因此,如果要运行Llama-2 70b模型,即使将Llama 2 70b量化到INT8精度,仍然需要70GB左右的内存。即使完全忽略内存消耗,也需要305张Groq LPU加速卡才够用。如果考虑到内存消耗,可能需要572张Groq LPU加速卡。官方数据显示,Groq LPU的平均功耗为185W,即使不计算外围设备的功耗,572张Groq LPU加速卡的总功耗也高达105.8kW。假设一张Groq LPU加速卡的价格为2万美元,因此,购买572张卡的成本高达1144万美元(规模采购价格应该可以更低)。根据人工智能科学家贾扬清分享的数据显示,目前,数据中心每月每千瓦的平均价格约为20美元,这意味着572张Groq LPU加速卡每年的电费为105.8*200*12=25.4万美元。贾扬清还表示,使用4张NVIDIA H100加速卡就可以实现572张Groq LPU一半的性能,这意味着一个8张H100的服务器的性能大致相当于572张Groq LPU。而8张H100加速卡... PC版: 手机版:

相关推荐

封面图片

英伟达发布下一代AI计算芯片 HGX H200 GPU

英伟达发布下一代AI计算芯片 HGX H200 GPU NVIDIA 今天宣布推出 NVIDIA HGX™ H200,为全球领先的 AI 计算平台带来强大动力。该平台基于 NVIDIA Hopper™ 架构,配备 NVIDIA H200 Tensor Core GPU 和高级内存,可处理生成 AI 和高性能计算工作负载的海量数据。 NVIDIA H200 是首款提供 HBM3e 的 GPU,HBM3e 是更快、更大的内存,可加速生成式 AI 和大型语言模型,同时推进 HPC 工作负载的科学计算。借助 HBM3e,NVIDIA H200 以每秒 4.8 TB 的速度提供 141GB 内存,与前一代 NVIDIA A100 相比,容量几乎翻倍,带宽增加 2.4 倍。 全球领先的服务器制造商和云服务提供商采用 H200 的系统预计将于 2024 年第二季度开始发货。

封面图片

[整理]k_zer0s老哥对Groq的LPU为什么能有这么快的推理速度做了相对详细的解释:

[整理]k_zer0s老哥对Groq的LPU为什么能有这么快的推理速度做了相对详细的解释: Groq的LPU在处理请求和响应方面,速度超越了Nvidia的GPU。 不同于Nvidia GPU需要依赖高速数据传输,Groq的LPU在其系统中没有采用高带宽存储器(HBM)。它使用的是SRAM,其速度比GPU所用的存储器快约20倍。 鉴于AI的推理计算相较于模型训练需要的数据量远小,Groq的LPU因此更节能。在执行推理任务时,它从外部内存读取的数据更少,消耗的电量也低于Nvidia的GPU。 LPU的工作原理与GPU截然不同。它采用了时序指令集计算机(Temporal Instruction Set Computer)架构,这意味着它无需像使用高带宽存储器(HBM)的GPU那样频繁地从内存中加载数据。这一特点不仅有助于避免HBM短缺的问题,还能有效降低成本。 如果在AI处理场景中采用Groq的LPU,可能就无需为Nvidia GPU配置特殊的存储解决方案。LPU并不像GPU那样对存储速度有极高要求。Groq公司宣称,其技术能够通过其强大的芯片和软件,在AI任务中取代GPU的角色。 来源:

封面图片

推理速度提升十倍!英伟达发布ChatGPT核弹级GPU

推理速度提升十倍!英伟达发布ChatGPT核弹级GPU 当地时间周二,英伟达举办2023年春季GTC大会,黄仁勋穿着标志性皮夹克,向开发者披露最新的硬件和AI应用软件进展。在过去十年里,AI产业经历了历史性的飞跃。从2012年卷积神经网络AlexNet点燃了深度学习领域的“星星之火”,到ChatGPT一鸣惊人。黄仁勋表示,眼下整个AI产业正处于“iPhone时刻”创业公司正在竞相建立颠覆式的商业模型,而业界巨头也在寻找应对之道。GTC大会上,英伟达推出开源量子计算机软件Cuda Quantum,用于构建量子算法;与AT&T(T.N)合作,帮助提高调度服务的效率。 当地时间3月21日,GTC大会,英伟达发布了专为ChatGPT设计的“核弹”GPU(图像芯片)H100 NVL,较之适用于GPT-3的A100,速度提升10倍。#视频 () 来自:雷锋 频道:@kejiqu 群组:@kejiquchat 投稿:@kejiqubot

封面图片

[整理] 对 Groq 的 LUP 运行Llama 70B 模型和同等规模英伟达显卡的成本对比,目前成本上相比英伟达没啥优势。

[整理] 对 Groq 的 LUP 运行Llama 70B 模型和同等规模英伟达显卡的成本对比,目前成本上相比英伟达没啥优势。 先说结论由于 LUP 这个卡显存太低,所以运行同样的模型需要的数量比英伟达的 H100 多的多。 成本主要来自于卡的购买成本,比H100 贵 3 倍。运营成本也比 H100 贵很多。 完整解释 这可能是首次对使用 GroqInc 硬件运行 Llama2-70b 的运营成本进行分析。 首先,我必须说我非常欣赏 Groq 的产品。它们性能卓越,潜力巨大。下面的内容仅是展示在与行业领头羊竞争时可能遇到的挑战,但随着时间推移,我对它充满期待。 每张 Groq 卡的内存为 230MB。考虑到 LLaMA 70b 模型,假设采用 int8 量化技术(一种降低数据精度以减少存储需求的技术)并完全忽略在模型推理(即模型执行过程中的数据处理)时的内存消耗,至少需要 305 张这样的卡。但实际上,根据报告,需要的卡数多达 572 张,因此我们的计算将基于这个数字。 每张 Groq 卡的价格是 $20,000,因此购买 572 张卡的总成本为 $11.44 百万。当然,考虑到销售策略和大规模购买的优惠,实际价格可能会更低,但我们暂时按照标价来计算。 对于 572 张卡片,平均每张卡的功耗为 185W,总功耗达到 105.8kW,这还不包括附加的外围设备。(实际的能耗可能会更高) 目前,数据中心每千瓦每月的电费平均为 $200,这意味着每年的电费为 105.8 * 200 * 12 = $254,000。 事实上,使用 4 张 H100 卡可以达到 Groq 一半的性能,因此 8 张卡组成的 H100 盒子在性能上大致等同于上述 Groq 配置。一个 8 卡的 H100 盒子的名义最大功率是 10kW(实际上大约在 8-9 kW),因此其年电费约为 $24,000 或略低。 目前,一个 8 卡的 H100 盒子的价格大约为 $300,000。 因此,如果运营三年,Groq 硬件的购买成本是 $114.4 万,运营成本为 $76.2万。而对于一个 8 卡的 H100 盒子,硬件购买成本为 $30 万,运营成本约为 $7.2 万或稍低。 以上数字仅为估算值。如果我有任何重大错误,请不吝指正。 来源:

封面图片

英伟达发布用于AI的"世界上最强大芯片"Blackwell B200 GPU

英伟达发布用于AI的"世界上最强大芯片"Blackwell B200 GPU NVIDIA 首席执行官黄仁勋在 GTC 现场直播中举起他的新 GPU(左边),右边是 H100。NVIDIA 表示,新的 B200 GPU 拥有 2080 亿个晶体管,可提供高达 20petaflops 的 FP4 算力,而 GB200 将两个 GPU 和一个 Grace CPU 结合在一起,可为 LLM 推理工作负载提供 30 倍的性能,同时还可能大大提高效率。NVIDIA 表示,与 H100 相比,它的成本和能耗"最多可降低 25 倍"。NVIDIA 声称,训练一个 1.8 万亿个参数的模型以前需要 8000 个 Hopper GPU 和 15 兆瓦的电力。如今,NVIDIA 首席执行官表示,2000 个 Blackwell GPU 就能完成这项工作,耗电量仅为 4 兆瓦。NVIDIA 表示,在具有 1750 亿个参数的 GPT-3 LLM 基准测试中,GB200 的性能是 H100 的 7 倍,而 NVIDIA 称其训练速度是 H100 的 4 倍。这就是 GB200 的样子。两个 GPU、一个 CPU、一块电路板NVIDIA 介绍说,其中一项关键改进是采用了第二代变压器引擎,通过为每个神经元使用四个比特而不是八个比特,将计算能力、带宽和模型大小提高了一倍(前面提到的 FP4 的 20 petaflops)。第二个关键区别只有在连接大量 GPU 时才会出现:新一代 NVLink 交换机可让 576 个 GPU 相互连接,双向带宽达到每秒 1.8 TB。这就要求 NVIDIA 打造一个全新的网络交换芯片,其中包含 500 亿个晶体管和一些自己的板载计算:NVIDIA 表示,该芯片拥有 3.6 teraflops 的 FP8 处理能力。NVIDIA 表示将通过 Blackwell 增加 FP4 和 FP6NVIDIA 表示,在此之前,由 16 个 GPU 组成的集群有 60% 的时间用于相互通信,只有 40% 的时间用于实际计算。当然,NVIDIA 还指望企业大量购买这些 GPU,并将它们包装成更大的设计,比如 GB200 NVL72,它将 36 个 CPU 和 72 个 GPU 集成到一个液冷机架中,可实现总计 720 petaflops 的 AI 训练性能或 1440 petaflops(又称 1.4exaflops)的推理性能。它内部有近两英里长的电缆,共有 5000 条独立电缆。GB200 NVL72机架上的每个托盘包含两个 GB200 芯片或两个 NVLink 交换机,每个机架有 18 个前者和 9 个后者。NVIDIA 称,其中一个机架总共可支持 27 万亿个参数模型。据传,GPT-4 的参数模型约为 1.7 万亿。该公司表示,亚马逊、Google、微软和甲骨文都已计划在其云服务产品中提供 NVL72 机架,但不清楚它们将购买多少。当然,NVIDIA 也乐于为公司提供其他解决方案。下面是用于 DGX GB200 的 DGX Superpod,它将八个系统合而为一,总共拥有 288 个 CPU、576 个 GPU、240TB 内存和 11.5 exaflops 的 FP4 计算能力。NVIDIA 称,其系统可扩展至数万 GB200 超级芯片,并通过其新型 Quantum-X800 InfiniBand(最多 144 个连接)或 Spectrum-X800 以太网(最多 64 个连接)与 800Gbps 网络连接在一起。我们预计今天不会听到任何关于新游戏 GPU 的消息,因为这一消息是在 NVIDIA 的 GPU 技术大会上发布的,而该大会通常几乎完全专注于 GPU 计算和人工智能,而不是游戏。不过,Blackwell GPU 架构很可能也会为未来的 RTX 50 系列桌面显卡提供算力。 ... PC版: 手机版:

封面图片

英伟达挑战者Groq希望融资3亿美元 估值或超30亿

英伟达挑战者Groq希望融资3亿美元 估值或超30亿 乔纳森·罗斯是谷歌专用芯片TPU(张量处理单元)的共同发明者,他大约在八年前创立了Groq。该公司致力于开发一种既经济又快速的产品,以替代AI行业标杆的英伟达芯片。根据媒体资料,包括Groq和Cerebras在内的近20家AI芯片开发商已共同筹资超过55亿美元。然而,鉴于行业的高难度和昂贵成本,对多数公司而言,成功仍然难以实现。一位消息人士表示,Groq希望在本月底前获得投资者的出资承诺。此前,Groq已从包括Tiger Global Management、D1 Capital Partners以及Lee Fixel的Addition等投资者那里筹集了逾3.67亿美元,公司估值超过10亿美元。尽管Groq尚未确定本轮融资的估值,但一位参与本轮融资的SPV(特殊目的实体)经理向潜在投资者透露,预计公司估值将超过30亿美元。在寻求大额融资或面临不利融资条件时,初创公司常聘请投资银行进行私募。银行家们有时会利用这一机会探索是否可能吸引其他公司的收购兴趣。Groq设计的芯片主要用于AI推理任务,这种芯片用于支持已经部署的人工智能程序的服务器,而不是帮助OpenAI等公司训练新模型。Groq的芯片已经可以运行包括Meta的Llama 3、谷歌Gemma和Mistral的Mixtral在内的多个开源模型,开发者可以自由访问。根据公司内部人士的说法,目前该服务是免费的,但Groq计划从六月开始收费。Groq还计划通过向政府机构和金融公司等大客户销售配备Groq芯片的服务器,以及将其部署在客户自己的数据中心,来实现营收增长。Quora的人工智能助理应用Poe在X平台上的一篇帖子中提到,用户可以在配备Groq芯片的服务器上访问并运行Llama 3模型。这使开发者能够在不同服务器上测试其应用程序,以比较基于不同芯片的速度。此外,Groq还与沙特阿美公司的技术子公司阿美数字,合作在沙特建立一个先进的AI计算中心。Groq的筹资活动已进行数月,与此同时,其一位重要的早期投资者查马斯·帕里哈皮蒂亚(Chamath Palihapitiya)的SocialCapital发生了一起纠纷。据报道,因为未经帕里哈皮蒂亚完全同意便组织了对Groq的SPV投资,帕里哈皮蒂亚在三月解雇了当时Groq董事会的成员,合伙人杰伊·扎韦里(Jay Zaveri)和投资者拉维·塔努库(Ravi Tanuku)。被解雇的Social Capital的前代表声称他们受到了不公正的对待。扎韦里已经离开了董事会,Social Capital暂时由首席财务官史蒂文·特里乌(Steven Trieu)接替他的位置。另外,从LinkedIn的信息看,亚马逊前高管拉朱·古拉巴尼(Raju Gulabani)也在今年年初离开了Groq董事会。此外,Groq在二月宣布将哈佛大学教授扬姆·穆恩(Youngme Moon)加入其董事会。帕里哈皮蒂亚去年在X平台上表示:“Groq可能是你未曾听闻过的最具影响力的AI公司,但他们已在构建全球最快AI硬件上付出了多年努力。”他还提到,在罗斯正式成立公司之前,他就已向其投资。尽管有更多资金的注入,Groq面临的挑战依然艰巨,其目标是让开发者放弃使用他们熟悉的英伟达芯片及其配套软件Cuda。多年来,包括亚马逊、谷歌和微软在内的大公司已经试图开发新型AI服务器芯片,以期让其云客户摆脱对英伟达的依赖,但成效有限。同时,英伟达的一些竞争者也面临困境。据报道,英国人工智能芯片公司Graphcore公司虽然筹集了数亿美元资金,但在遭受重大亏损后,目前正在考虑出售的可能性。(小小) ... PC版: 手机版:

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人