Groq LPU人工智能推理芯片的运算表现可与主流厂商媲美
GroqLPU人工智能推理芯片的运算表现可与主流厂商媲美一家人工智能芯片初创公司Groq曾长期默默无闻,但现在它利用专为大型语言模型(LLM)(如GPT、Llama和MistralLLM)设计的语言处理单元(LPU),在提供超快推理速度方面取得了重大进展。GroqLPU是基于张量流处理器(TSP)架构的单核单元,在INT8时可达到750TOPS,在FP16时可达到188TeraFLOPS,具有320x320融合点乘矩阵乘法,此外还有5120个矢量ALU。GroqLPU拥有80TB/s的带宽,并具有大规模并发能力,其本地SRAM容量为230MB。所有这些共同作用,为Groq提供了出色的性能,在过去几天的互联网上掀起了波澜。在Mixtral8x7B模型中,GroqLPU的推理速度为每秒480个令牌,在业内处于领先地位。在Llama270B等上下文长度为4096个令牌的模型中,Groq每秒可提供300个令牌,而在上下文长度为2048个令牌的较小Llama27B中,GroqLPU每秒可输出750个令牌。根据LLMPerfLeaderboard的数据,GroqLPU在推断LLMsLlama时击败了基于GPU的云提供商,其配置参数从70亿到700亿不等。在令牌吞吐量(输出)和到第一个令牌的时间(延迟)方面,Groq处于领先地位,实现了最高的吞吐量和第二低的延迟。ChatGPT采用GPT-3.5免费版,每秒可输出约40个令牌。目前的开源LLM(如Mixtral8x7B)可以在大多数基准测试中击败GPT3.5,现在这些开源LLM的运行速度几乎可以达到500令牌每秒。随着像Groq的LPU这样的快速推理芯片开始普及,等待聊天机器人回应的日子似乎开始慢慢消失了。这家人工智能初创公司直接威胁到英伟达(NVIDIA)、AMD和英特尔提供的推理硬件,但业界是否愿意采用LPU仍是个问题,您可以在这里进行试用:https://groq.com/...PC版:https://www.cnbeta.com.tw/articles/soft/1419471.htm手机版:https://m.cnbeta.com.tw/view/1419471.htm
在Telegram中查看相关推荐
🔍 发送关键词来寻找群组、频道或视频。
启动SOSO机器人