Groq LPU人工智能推理芯片的运算表现可与主流厂商媲美
Groq LPU人工智能推理芯片的运算表现可与主流厂商媲美 一家人工智能芯片初创公司 Groq 曾长期默默无闻,但现在它利用专为大型语言模型(LLM)(如 GPT、Llama 和 Mistral LLM)设计的语言处理单元(LPU),在提供超快推理速度方面取得了重大进展。Groq LPU 是基于张量流处理器(TSP)架构的单核单元,在 INT8 时可达到 750 TOPS,在 FP16 时可达到 188 TeraFLOPS,具有 320x320 融合点乘矩阵乘法,此外还有 5120 个矢量 ALU。Groq LPU 拥有 80 TB/s 的带宽,并具有大规模并发能力,其本地 SRAM 容量为 230 MB。所有这些共同作用,为 Groq 提供了出色的性能,在过去几天的互联网上掀起了波澜。在Mixtral 8x7B 模型中,Groq LPU 的推理速度为每秒 480 个令牌,在业内处于领先地位。在 Llama 2 70B 等上下文长度为 4096 个令牌的模型中,Groq 每秒可提供 300 个令牌,而在上下文长度为 2048 个令牌的较小 Llama 2 7B 中,Groq LPU 每秒可输出 750 个令牌。根据LLMPerf Leaderboard 的数据,Groq LPU 在推断 LLMs Llama 时击败了基于 GPU 的云提供商,其配置参数从 70 亿到 700 亿不等。在令牌吞吐量(输出)和到第一个令牌的时间(延迟)方面,Groq处于领先地位,实现了最高的吞吐量和第二低的延迟。ChatGPT 采用 GPT-3.5 免费版,每秒可输出约 40 个令牌。目前的开源 LLM(如 Mixtral 8x7B)可以在大多数基准测试中击败 GPT 3.5,现在这些开源 LLM 的运行速度几乎可以达到 500 令牌每秒。随着像 Groq 的 LPU 这样的快速推理芯片开始普及,等待聊天机器人回应的日子似乎开始慢慢消失了。这家人工智能初创公司直接威胁到英伟达(NVIDIA)、AMD 和英特尔提供的推理硬件,但业界是否愿意采用 LPU 仍是个问题,您可以在这里进行试用: ... PC版: 手机版:
在Telegram中查看相关推荐

🔍 发送关键词来寻找群组、频道或视频。
启动SOSO机器人