Groq LPU人工智能推理芯片的运算表现可与主流厂商媲美

Groq LPU人工智能推理芯片的运算表现可与主流厂商媲美 一家人工智能芯片初创公司 Groq 曾长期默默无闻,但现在它利用专为大型语言模型(LLM)(如 GPT、Llama 和 Mistral LLM)设计的语言处理单元(LPU),在提供超快推理速度方面取得了重大进展。Groq LPU 是基于张量流处理器(TSP)架构的单核单元,在 INT8 时可达到 750 TOPS,在 FP16 时可达到 188 TeraFLOPS,具有 320x320 融合点乘矩阵乘法,此外还有 5120 个矢量 ALU。Groq LPU 拥有 80 TB/s 的带宽,并具有大规模并发能力,其本地 SRAM 容量为 230 MB。所有这些共同作用,为 Groq 提供了出色的性能,在过去几天的互联网上掀起了波澜。在Mixtral 8x7B 模型中,Groq LPU 的推理速度为每秒 480 个令牌,在业内处于领先地位。在 Llama 2 70B 等上下文长度为 4096 个令牌的模型中,Groq 每秒可提供 300 个令牌,而在上下文长度为 2048 个令牌的较小 Llama 2 7B 中,Groq LPU 每秒可输出 750 个令牌。根据LLMPerf Leaderboard 的数据,Groq LPU 在推断 LLMs Llama 时击败了基于 GPU 的云提供商,其配置参数从 70 亿到 700 亿不等。在令牌吞吐量(输出)和到第一个令牌的时间(延迟)方面,Groq处于领先地位,实现了最高的吞吐量和第二低的延迟。ChatGPT 采用 GPT-3.5 免费版,每秒可输出约 40 个令牌。目前的开源 LLM(如 Mixtral 8x7B)可以在大多数基准测试中击败 GPT 3.5,现在这些开源 LLM 的运行速度几乎可以达到 500 令牌每秒。随着像 Groq 的 LPU 这样的快速推理芯片开始普及,等待聊天机器人回应的日子似乎开始慢慢消失了。这家人工智能初创公司直接威胁到英伟达(NVIDIA)、AMD 和英特尔提供的推理硬件,但业界是否愿意采用 LPU 仍是个问题,您可以在这里进行试用: ... PC版: 手机版:

相关推荐

封面图片

OpenAI 和 Meta 准备推出具有“推理”能力的新人工智能模型

OpenAI 和 Meta 准备推出具有“推理”能力的新人工智能模型 OpenAI 和 Meta 即将发布新的人工智能模型,他们表示这些模型将具备推理和规划的能力,这是在机器中实现超人认知的关键步骤。本周,OpenAI 和 Meta 的高管表示,他们正准备推出其大型语言模型的下一个版本。Meta 表示将在未来几周内开始推出 Llama 3,而微软支持的 OpenAI 表示,其下一个模型 GPT-5 将“很快”推出。Meta 人工智能研究副总裁乔尔•皮诺表示:“我们正在努力研究如何让这些模型不仅能说话,还能真正推理、规划……拥有记忆”。OpenAI 首席运营官布拉德•莱特卡普在接受记者采访时表示,下一代 GPT 将在解决推理等“难题”方面取得进展。他说:“我们将开始看到人工智能能够以更复杂的方式完成更复杂的任务。”“我认为,我们才刚刚开始触及这些模型推理能力的表面。” ()

封面图片

谷歌TPU人马打造最快推理芯片 喊话奥特曼:你们也太慢了

谷歌TPU人马打造最快推理芯片 喊话奥特曼:你们也太慢了 (这里面还有个熟悉的身影:Lepton)网友表示:这速度简直就是飞机vs走路。值得一提的是,这并非哪家大公司进展初创公司Groq,GoogleTPU团队原班人马,基于自研芯片推出推理加速方案。(注意不是马斯克的Grok)据他们介绍,其推理速度相较于英伟达GPU提高了10倍,成本却降低到十分之一。换言之,任何一个大模型都可以部署实现。目前已经能支持Mixtral 8x7B SMoE、Llama 2的7B和70B这三种模型,并且可直接体验Demo。他们还在官网上喊话奥特曼:你们推出的东西太慢了……每秒接近500tokens既然如此,那就来体验一下这个号称“史上最快推理”的Groq。先声明:不比较生成质量。就像它自己说的那样,内容概不负责。目前,演示界面上有两种模型可以选择。就选择Mixtral 8x7B-32k和GPT-4同擂台对比一下。提示词:你是一个小学生,还没完成寒假作业。请根据《星际穿越》写一篇500字的读后感。结果啪的一下,只需1.76秒就生成了一长串读后感,速度在每秒478Tokens。不过内容是英文的,以及读后感只有三百六十多字。但后面也赶紧做了解释说考虑到是小学生写不了那么多……至于GPT-4这边的表现,内容质量自然更好,也体现了整个思路过程。但要完全生成超过了三十秒。单是读后感内容的生成,也有近二十秒钟的时间。除了Demo演示外,Groq现在支持API访问,并且完全兼容,可直接从OpenAI的API进行简单切换。可以免费试用10天,这期间可以免费获得100万Tokens。目前支持Llama 2-70B 和7B, Groq可以实现4096的上下文长度,还有Mixtral 8x7B这一型号。当然也不局限于这些型号,Groq支持具体需求具体定制。价格方面,他们保证:一定低于市面上同等价格。不过可以看到,每秒500tokens似乎还不是终极速度,他们最快可以实现每秒750Tokens。GoogleTPU团队创业项目Groq是集软硬件服务于一体的大模型推理加速方案,成立于2016年,创始团队中很多都是GoogleTPU的原班人马。公司领导层的10人中,有5人都曾有Google的工作经历,3人曾在英特尔工作。创始人兼CEO Jonathan Ross,设计并实现了第一代TPU芯片的核心元件,TPU的研发工作中有20%都由他完成。Groq没有走GPU路线,而是自创了全球首个L(anguage)PU方案。LPU的核心奥义是克服两个LLM瓶颈计算密度和内存带宽,最终实现的LLM推理性能比其他基于云平台厂商快18倍。据此前他们介绍,英伟达GPU需要大约10焦耳到30焦耳才能生成响应中的tokens,而 Groq 设置每个tokens大约需要1焦耳到3焦耳。因此,推理速度提高了10倍,成本却降低了十分之一,或者说性价比提高了100倍。延迟方面,在运行70B模型时,输出第一个token时的延时仅有0.22秒。甚至为了适应Groq的性能水平,第三方测评机构ArtificialAnalysis还专门调整了图表坐标轴。据介绍,Groq的芯片采用14nm制程,搭载了230MB大SRAM来保证内存带宽,片上内存带宽达到了80TB/s。算力层面,Gorq芯片的整型(8位)运算速度为750TOPs,浮点(16位)运算速度则为188TFLOPs。Groq主要基于该公司自研的TSP架构,其内存单元与向量和矩阵深度学习功能单元交错,从而利用机器学习工作负载固有的并行性对推理进行加速。在运算处理的同时,每个TSP都还具有网络交换的功能,可直接通过网络与其他TSP交换信息,无需依赖外部的网络设备,这种设计提高了系统的并行处理能力和效率。结合新设计的Dragonfly网络拓扑,hop数减少、通信延迟降低,使得传输效率进一步提高;同时软件调度网络带来了精确的流量控制和路径规划,从而提高了系统的整体性能。Groq支持通过PyTorch、TensorFlow等标准机器学习框架进行推理,暂不支持模型训练。此外Groq还提供了编译平台和本地化硬件方案,不过并未介绍更多详情,想要了解的话需要与团队进行联系。而在第三方网站上,搭载Groq芯片的加速卡售价为2万多美元,差不多15万人民币。它由知名电子元件生产商莫仕(molex)旗下的BittWare代工,同时该厂也为英特尔和AMD代工加速卡。目前,Groq的官网正在招人。技术岗位年薪为10万-50万美元,非技术岗位则为9万-47万美元。“目标是三年超过英伟达”除此之外,这家公司还有个日常操作是叫板喊话各位大佬。当时GPTs商店推出之后,Groq就喊话奥特曼:用GPTs就跟深夜读战争与和平一样慢……阴阳怪气直接拉满~马斯克也曾被它痛斥,说“剽窃”自己的名字。在最新讨论中,他们疑似又有了新操作。一名自称Groq工作人员的用户与网友互动时表示,Groq的目标是打造最快的大模型硬件,并扬言:三年时间内赶超英伟达。这下好了,黄院士的核武器有新的目标了。参考链接:[1] ... PC版: 手机版:

封面图片

前几天那个每秒输出500个Token的项目groq,公开了他们的API,他们的输出速度比顶级运营商快18倍。得益于这个速度,甚至

前几天那个每秒输出500个Token的项目groq,公开了他们的API,他们的输出速度比顶级运营商快18倍。得益于这个速度,甚至实现了完全实时的远程AI对话。 Mixtral, 8x7B SMoE可以达到480 Token/S,价格为100万Token 0.27美元。极限情况下他们用Llama2 7B甚至能实现750 Token/S。 目前他们还提供100万 Token的免费试用。API完全兼容OpenAI API。 这里尝试groq:

封面图片

AI推理速度提升超10倍 Groq LPU能否取代英伟达GPU?

AI推理速度提升超10倍 Groq LPU能否取代英伟达GPU? 推理速度比GPU快10倍,功耗仅1/10据介绍,Groq的大模型推理芯片是全球首个LPU(Language Processing Unit)方案,是一款基于全新的TSA 架构的Tensor Streaming Processor (TSP) 芯片,旨在提高机器学习和人工智能等计算密集型工作负载的性能。虽然Groq的LPU并没有采用更本高昂的尖端制程工艺,而是选择了14nm制程,但是凭借自研的TSA 架构,Groq LPU 芯片具有高度的并行处理能力,可以同时处理数百万个数据流,并该芯片还集成了230MB容量的SRAM来替代DRAM,以保证内存带宽,其片上内存带宽高达80TB/s。根据官方的数据显示,Groq的LPU芯片的性能表现相当出色,可以提供高达1000 TOPS (Tera Operations Per Second) 的计算能力,并且在某些机器学习模型上的性能表现可以比常规的 GPU 和 TPU 提升10到100倍。Groq表示,基于其LPU芯片的云服务器在Llama2或Mistreal模型在计算和响应速度上远超基于NVIDIA AI GPU的ChatGPT,其每秒可以生成高达500个 token。相比之下,目前ChatGPT-3.5的公开版本每秒只能生成大约40个token。由于ChatGPT-3.5主要是基于NVIDIA的GPU,也就是说,Groq LPU芯片的响应速度达到了NVIDIA  GPU的10倍以上。Groq表示,相对于其他云平台厂商的大模型推理性能,基于其LPU芯片的云服务器的大模型推理性能最终实现了比其他云平台厂商快18倍。另外,在能耗方面,NVIDIAGPU需要大约10到30焦耳才能生成响应中的tokens,而Groq LPU芯片仅需1到3焦耳,在推理速度大幅提升10倍的同时,其能耗成本仅有NVIDIAGPU的十分之一,这等于是性价比提高了100倍。Groq公司在演示中展示了其芯片的强大性能,支持Mistral AI的Mixtral8x7B SMoE,以及Meta的Llama2的7B和70B等多种模型,支持使用4096字节的上下文长度,并可直接体验Demo。不仅如此,Groq还喊话各大公司,扬言在三年内超越NVIDIA。目前该公司的LPU推理芯片在第三方网站上的售价为2万多美元,低于NVIDIA H100的2.5-3万美元。资料显示,Groq 是一家成立于2016年人工智能硬件初创公司,核心团队来源于谷歌最初的张量处理单元(TPU)工程团队。Groq 创始人兼CEO Jonathan Ross是谷歌TPU项目的核心研发人员。该公司硬件工程副总裁Jim Miller 曾是亚马逊云计算服务AWS设计算力硬件的负责人,还曾在英特尔领导了所有 Pentium II 工程。目前该公司筹集了超过 6200 万美元。为何采用大容量SRAM?Groq LPU芯片与大多数其他初创公司和现有的AI处理器有着截然不同的时序指令集计算机(Temporal Instruction Set Computer)架构,它被设计为一个强大的单线程流处理器,配备了专门设计的指令集,旨在利用张量操作和张量移动,使机器学习模型能够更有效地执行。该架构的独特之处在于执行单元、片内的SRAM内存和其他执行单元之间的交互。它无需像使用HBM(高带宽内存)的GPU那样频繁地从内存中加载数据。Groq 的神奇之处不仅在于硬件,还在于软件。软件定义的硬件在这里发挥着重要作用。Groq 的软件将张量流模型或其他深度学习模型编译成独立的指令流,并提前进行高度协调和编排。编排来自编译器。它提前确定并计划整个执行,从而实现非常确定的计算。“这种确定性来自于我们的编译器静态调度所有指令单元的事实。这使我们无需进行任何激进的推测即可公开指令级并行性。芯片上没有分支目标缓冲区或缓存代理,”Groq 的首席架构师 Dennis Abts 解释道。Groq LPU芯片为了追求性能最大化,因此添加了更多SRAM内存和执行块。SRAM全名为“静态随机存取存储器”(Static Random-Access Memory)是随机存取存储器的一种。所谓的“静态”,是指这种存储器只要保持通电,里面储存的数据就可以恒常保持。相对之下,动态随机存取存储器(DRAM)里面所储存的数据则需要周期性地更新。自SRAM推出60多年来,其一直是低延迟和高可靠性应用的首选存储器,事实上,对于 AI/ML 应用来说,SRAM 不仅仅具有其自身的优势。SRAM 对于 AI 至关重要,尤其是嵌入式 SRAM,它是性能最高的存储器,可以将其直接与高密度逻辑核心集成在一起。目前SRAM也是被诸多CPU集成在片内(更靠近CPU计算单元),作为CPU的高速缓存,使得CPU可以更直接、更快速的从SRAM中获取重要的数据,无需去DRAM当中读取。只不过,当前旗舰级CPU当中的SRAM容量最多也仅有几十个MB。Groq之所以选择使用大容量的 SRAM来替代DRAM 内存的原因主要有以下几点:1、SRAM 内存的访问速度比 DRAM 内存快得多,这意味着 LPU 芯片更快速地处理数据,从而提高计算性能。2、SRAM 内存没有 DRAM 内存的刷新延迟,这意味着LPU芯片也可以更高效地处理数据,减少延迟带来的影响。3、SRAM 内存的功耗比 DRAM 内存低,这意味着LPU芯片可以更有效地管理能耗,从而提高效率。但是,对于SRAM来说,其也有着一些劣势:1、面积更大:在逻辑晶体管随着CMOS工艺持续微缩的同时,SRAM的微缩却十分的困难。事实上,早在 20nm时代,SRAM 就无法随着逻辑晶体管的微缩相应地微缩。2、容量小:SRAM 的容量比 DRAM 小得多,这是因为每个bit的数据需要更多的晶体管来存储,再加上SRAM的微缩非常困难,使得相同面积下,SRAM容量远低于DRAM等存储器。这也使得SRAM在面对需要存储大量数据时的应用受到了限制。3、成本高:SRAM 的成本比 DRAM要高得多,再加上相同容量下,SRAM需要更多的晶体管来存储数据,这也使得其成本更高。总的来说,虽然SRAM 在尺寸、容量和成本等方面具有一些劣势,这些劣势限制了其在某些应用中的应用,但是 SRAM 的访问速度比 DRAM 快得多,这使得它在某些计算密集型应用中表现得非常出色。Groq LPU 芯片采用的大容量 SRAM 内存可以提供更高的带宽(高达80TB/s)、更低的功耗和更低的延迟,从而提高机器学习和人工智能等计算密集型工作负载的效率。那么,与目前AI GPU当中所搭载的 HBM 内存相比,Groq LPU 芯片集成的 SRAM 内存又有何优势和劣势呢?Groq LPU 芯片的 SRAM 内存容量虽然有230MB,但是相比之下AI GPU 中的 HBM 容量通常都有数十GB(比如NVIDIA H100,其集成了80GB HBM),这也意味着LPU 芯片可能无法处理更大的数据集和更复杂的模型。相同容量下,SRAM的成本也比HBM更高。不过,与HBM 相比,Groq LPU 芯片的所集成的 SRAM 的仍然有着带宽更快(NVIDIA H100的HBM带宽仅3TB/s)、功耗更低、延迟更低的优势。能否替代NVIDIA H00?虽然Groq公布的数据似乎表明,其LPU芯片的推理速度达到了NVIDIA GPU的10倍以上,并且能耗成本仅是它十分之一,等于是性价比提高了100倍。但是,Groq并且明确指出其比较的是NVIDIA的哪款GPU产品。由于目前NVIDIA最主流的AI GPU是H100,因此,我们就拿NVIDIA H100来与Groq LPU来做比较。由于Groq LPU只有230MB的片上SRAM来作为内存,因此,如果要运行Llama-2 70b模型,即使将Llama 2 70b量化到INT8精度,仍然需要70GB左右的内存。即使完全忽略内存消耗,也需要305张Groq LPU加速卡才够用。如果考虑到内存消耗,可能需要572张Groq LPU加速卡。官方数据显示,Groq LPU的平均功耗为185W,即使不计算外围设备的功耗,572张Groq LPU加速卡的总功耗也高达105.8kW。假设一张Groq LPU加速卡的价格为2万美元,因此,购买572张卡的成本高达1144万美元(规模采购价格应该可以更低)。根据人工智能科学家贾扬清分享的数据显示,目前,数据中心每月每千瓦的平均价格约为20美元,这意味着572张Groq LPU加速卡每年的电费为105.8*200*12=25.4万美元。贾扬清还表示,使用4张NVIDIA H100加速卡就可以实现572张Groq LPU一半的性能,这意味着一个8张H100的服务器的性能大致相当于572张Groq LPU。而8张H100加速卡... PC版: 手机版:

封面图片

英伟达发布用于人工智能的“世界上最强大芯片”Blackwell B200 GPU

英伟达发布用于人工智能的“世界上最强大芯片”Blackwell B200 GPU 英伟达的 H100 AI 芯片使其成为价值数万亿美元的公司,其价值可能超过 Alphabet 和亚马逊,而竞争对手一直在奋力追赶。但也许英伟达即将通过新的 Blackwell B200 GPU 和 GB200“超级芯片”扩大其领先地位。该公司在加州圣何塞举行的 GTC 大会上表示,新的 B200 GPU 拥有 2080 亿个晶体管,可提供高达 20petaflops 的 FP4 算力,而 GB200 将两个 GPU 和单个 Grace CPU 结合在一起,可为 LLM 推理工作负载提供30倍的性能,同时还可能大大提高效率。英伟达表示,在具有 1750 亿个参数的 GPT-3 LLM 基准测试中,GB200 的性能是 H100 的7倍,而英伟达称其训练速度是 H100 的4倍。

封面图片

微软推出其规模最小的人工智能模型 Phi-3

微软推出其规模最小的人工智能模型 Phi-3 该公司于 12 月发布了 Phi-2,其性能与 Llama 2 等更大的型号不相上下。微软表示,Phi-3 的性能比前一版本更好,其响应速度接近比它大 10 倍的机型。微软Azure人工智能平台公司副总裁埃里克-博伊德(Eric Boyd)介绍说,Phi-3 Mini的性能与GPT-3.5等LLM不相上下,"只是外形尺寸更小而已"。与体积较大的同类,小型人工智能模型的运行成本通常更低,在手机和笔记本电脑等个人。据 The Information今年早些时候报道,微软正在组建一个专门研究轻量级人工智能模型的团队。 除了 Phi,该公司还建立了一个专注于解决数学问题的模型Orca-Math。微软的竞争对手也有自己的小型人工智能模型,它们大多针对文档摘要或编码辅助等较简单的任务。Google的 Gemma 2B 和 7B适合简单的聊天机器人和语言相关工作。Anthropic 的 Claude 3 Haiku可以阅读带图表的高密度研究论文并快速总结,而Meta 最近发布的 Llama 3 8B可能会用于一些聊天机器人和编码辅助工作。博伊德说,开发人员用"课程"来训练 Phi-3。他们的灵感来自于儿童是如何从睡前故事、单词较简单的书籍以及谈论较大主题的句子结构中学习的。Phi-3 只是在前几个迭代学习的基础上更进一步。Phi-1 专注于编码,Phi-2 开始学习推理,而 Phi-3 则更擅长编码和推理。虽然Phi-3系列模型知道一些常识,但它在广度上无法击败GPT-4或其他LLM从一个在整个互联网上接受过训练的LLM和一个像Phi-3这样的小型模型中得到的答案差别很大。Boyd 说,公司经常发现,像 Phi-3 这样的小型机型更适合他们的定制应用,因为对于很多公司来说,他们的内部数据集无论如何都会偏小。而且,由于这些型号使用的计算能力较低,它们的价格往往要低得多。 ... PC版: 手机版:

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人