推理速度提升十倍！英伟达发布ChatGPT核弹级GPU.mp4

推理速度提升十倍！英伟达发布ChatGPT核弹级GPU

推理速度提升十倍！英伟达发布ChatGPT核弹级GPU 当地时间周二，英伟达举办2023年春季GTC大会，黄仁勋穿着标志性皮夹克，向开发者披露最新的硬件和AI应用软件进展。在过去十年里，AI产业经历了历史性的飞跃。从2012年卷积神经网络AlexNet点燃了深度学习领域的“星星之火”，到ChatGPT一鸣惊人。黄仁勋表示，眼下整个AI产业正处于“iPhone时刻”创业公司正在竞相建立颠覆式的商业模型，而业界巨头也在寻找应对之道。GTC大会上，英伟达推出开源量子计算机软件Cuda Quantum，用于构建量子算法；与AT&T(T.N)合作，帮助提高调度服务的效率。当地时间3月21日，GTC大会，英伟达发布了专为ChatGPT设计的“核弹”GPU（图像芯片）H100 NVL，较之适用于GPT-3的A100，速度提升10倍。#视频 () 来自：雷锋频道：@kejiqu 群组：@kejiquchat 投稿：@kejiqubot

AI推理速度提升超10倍 Groq LPU能否取代英伟达GPU？

AI推理速度提升超10倍 Groq LPU能否取代英伟达GPU？推理速度比GPU快10倍，功耗仅1/10据介绍，Groq的大模型推理芯片是全球首个LPU（Language Processing Unit）方案，是一款基于全新的TSA 架构的Tensor Streaming Processor (TSP) 芯片，旨在提高机器学习和人工智能等计算密集型工作负载的性能。虽然Groq的LPU并没有采用更本高昂的尖端制程工艺，而是选择了14nm制程，但是凭借自研的TSA 架构，Groq LPU 芯片具有高度的并行处理能力，可以同时处理数百万个数据流，并该芯片还集成了230MB容量的SRAM来替代DRAM，以保证内存带宽，其片上内存带宽高达80TB/s。根据官方的数据显示，Groq的LPU芯片的性能表现相当出色，可以提供高达1000 TOPS (Tera Operations Per Second) 的计算能力，并且在某些机器学习模型上的性能表现可以比常规的 GPU 和 TPU 提升10到100倍。Groq表示，基于其LPU芯片的云服务器在Llama2或Mistreal模型在计算和响应速度上远超基于NVIDIA AI GPU的ChatGPT，其每秒可以生成高达500个 token。相比之下，目前ChatGPT-3.5的公开版本每秒只能生成大约40个token。由于ChatGPT-3.5主要是基于NVIDIA的GPU，也就是说，Groq LPU芯片的响应速度达到了NVIDIA GPU的10倍以上。Groq表示，相对于其他云平台厂商的大模型推理性能，基于其LPU芯片的云服务器的大模型推理性能最终实现了比其他云平台厂商快18倍。另外，在能耗方面，NVIDIAGPU需要大约10到30焦耳才能生成响应中的tokens，而Groq LPU芯片仅需1到3焦耳，在推理速度大幅提升10倍的同时，其能耗成本仅有NVIDIAGPU的十分之一，这等于是性价比提高了100倍。Groq公司在演示中展示了其芯片的强大性能，支持Mistral AI的Mixtral8x7B SMoE，以及Meta的Llama2的7B和70B等多种模型，支持使用4096字节的上下文长度，并可直接体验Demo。不仅如此，Groq还喊话各大公司，扬言在三年内超越NVIDIA。目前该公司的LPU推理芯片在第三方网站上的售价为2万多美元，低于NVIDIA H100的2.5-3万美元。资料显示，Groq 是一家成立于2016年人工智能硬件初创公司，核心团队来源于谷歌最初的张量处理单元（TPU）工程团队。Groq 创始人兼CEO Jonathan Ross是谷歌TPU项目的核心研发人员。该公司硬件工程副总裁Jim Miller 曾是亚马逊云计算服务AWS设计算力硬件的负责人，还曾在英特尔领导了所有 Pentium II 工程。目前该公司筹集了超过 6200 万美元。为何采用大容量SRAM？Groq LPU芯片与大多数其他初创公司和现有的AI处理器有着截然不同的时序指令集计算机（Temporal Instruction Set Computer）架构，它被设计为一个强大的单线程流处理器，配备了专门设计的指令集，旨在利用张量操作和张量移动，使机器学习模型能够更有效地执行。该架构的独特之处在于执行单元、片内的SRAM内存和其他执行单元之间的交互。它无需像使用HBM（高带宽内存）的GPU那样频繁地从内存中加载数据。Groq 的神奇之处不仅在于硬件，还在于软件。软件定义的硬件在这里发挥着重要作用。Groq 的软件将张量流模型或其他深度学习模型编译成独立的指令流，并提前进行高度协调和编排。编排来自编译器。它提前确定并计划整个执行，从而实现非常确定的计算。“这种确定性来自于我们的编译器静态调度所有指令单元的事实。这使我们无需进行任何激进的推测即可公开指令级并行性。芯片上没有分支目标缓冲区或缓存代理，”Groq 的首席架构师 Dennis Abts 解释道。Groq LPU芯片为了追求性能最大化，因此添加了更多SRAM内存和执行块。SRAM全名为“静态随机存取存储器”（Static Random-Access Memory）是随机存取存储器的一种。所谓的“静态”，是指这种存储器只要保持通电，里面储存的数据就可以恒常保持。相对之下，动态随机存取存储器（DRAM）里面所储存的数据则需要周期性地更新。自SRAM推出60多年来，其一直是低延迟和高可靠性应用的首选存储器，事实上，对于 AI/ML 应用来说，SRAM 不仅仅具有其自身的优势。SRAM 对于 AI 至关重要，尤其是嵌入式 SRAM，它是性能最高的存储器，可以将其直接与高密度逻辑核心集成在一起。目前SRAM也是被诸多CPU集成在片内（更靠近CPU计算单元），作为CPU的高速缓存，使得CPU可以更直接、更快速的从SRAM中获取重要的数据，无需去DRAM当中读取。只不过，当前旗舰级CPU当中的SRAM容量最多也仅有几十个MB。Groq之所以选择使用大容量的 SRAM来替代DRAM 内存的原因主要有以下几点：1、SRAM 内存的访问速度比 DRAM 内存快得多，这意味着 LPU 芯片更快速地处理数据，从而提高计算性能。2、SRAM 内存没有 DRAM 内存的刷新延迟，这意味着LPU芯片也可以更高效地处理数据，减少延迟带来的影响。3、SRAM 内存的功耗比 DRAM 内存低，这意味着LPU芯片可以更有效地管理能耗，从而提高效率。但是，对于SRAM来说，其也有着一些劣势：1、面积更大：在逻辑晶体管随着CMOS工艺持续微缩的同时，SRAM的微缩却十分的困难。事实上，早在 20nm时代，SRAM 就无法随着逻辑晶体管的微缩相应地微缩。2、容量小：SRAM 的容量比 DRAM 小得多，这是因为每个bit的数据需要更多的晶体管来存储，再加上SRAM的微缩非常困难，使得相同面积下，SRAM容量远低于DRAM等存储器。这也使得SRAM在面对需要存储大量数据时的应用受到了限制。3、成本高：SRAM 的成本比 DRAM要高得多，再加上相同容量下，SRAM需要更多的晶体管来存储数据，这也使得其成本更高。总的来说，虽然SRAM 在尺寸、容量和成本等方面具有一些劣势，这些劣势限制了其在某些应用中的应用，但是 SRAM 的访问速度比 DRAM 快得多，这使得它在某些计算密集型应用中表现得非常出色。Groq LPU 芯片采用的大容量 SRAM 内存可以提供更高的带宽（高达80TB/s）、更低的功耗和更低的延迟，从而提高机器学习和人工智能等计算密集型工作负载的效率。那么，与目前AI GPU当中所搭载的 HBM 内存相比，Groq LPU 芯片集成的 SRAM 内存又有何优势和劣势呢？Groq LPU 芯片的 SRAM 内存容量虽然有230MB，但是相比之下AI GPU 中的 HBM 容量通常都有数十GB（比如NVIDIA H100，其集成了80GB HBM），这也意味着LPU 芯片可能无法处理更大的数据集和更复杂的模型。相同容量下，SRAM的成本也比HBM更高。不过，与HBM 相比，Groq LPU 芯片的所集成的 SRAM 的仍然有着带宽更快（NVIDIA H100的HBM带宽仅3TB/s）、功耗更低、延迟更低的优势。能否替代NVIDIA H00？虽然Groq公布的数据似乎表明，其LPU芯片的推理速度达到了NVIDIA GPU的10倍以上，并且能耗成本仅是它十分之一，等于是性价比提高了100倍。但是，Groq并且明确指出其比较的是NVIDIA的哪款GPU产品。由于目前NVIDIA最主流的AI GPU是H100，因此，我们就拿NVIDIA H100来与Groq LPU来做比较。由于Groq LPU只有230MB的片上SRAM来作为内存，因此，如果要运行Llama-2 70b模型，即使将Llama 2 70b量化到INT8精度，仍然需要70GB左右的内存。即使完全忽略内存消耗，也需要305张Groq LPU加速卡才够用。如果考虑到内存消耗，可能需要572张Groq LPU加速卡。官方数据显示，Groq LPU的平均功耗为185W，即使不计算外围设备的功耗，572张Groq LPU加速卡的总功耗也高达105.8kW。假设一张Groq LPU加速卡的价格为2万美元，因此，购买572张卡的成本高达1144万美元（规模采购价格应该可以更低）。根据人工智能科学家贾扬清分享的数据显示，目前，数据中心每月每千瓦的平均价格约为20美元，这意味着572张Groq LPU加速卡每年的电费为105.8*200*12=25.4万美元。贾扬清还表示，使用4张NVIDIA H100加速卡就可以实现572张Groq LPU一半的性能，这意味着一个8张H100的服务器的性能大致相当于572张Groq LPU。而8张H100加速卡... PC版：手机版：

Adobe Premiere Pro 22.2 发布，英伟达 / 英特尔 GPU 编码速度大幅提升 - IT之家

字节跳动发布文生图开放模型 SDXL-Lightning，生成速度提升十倍

字节跳动发布文生图开放模型 SDXL-Lightning，生成速度提升十倍字节跳动发布了文生图开放模型 SDXL-Lightning。据悉，该模型能够在极短的时间内生成高质量和高分辨率的图像，是目前最快的文生图模型之一。目前，文生图领域的主流模型都采用了扩散过程的生成技术，即通过多次迭代，将噪声逐渐转化为图像。这种技术虽然能够生成逼真的图像，但是也存在着计算资源消耗大、生成速度慢的缺点。生成一张高质量图像，大约需要 5 秒。字节跳动的 SDXL-Lightning 模型则采用了一种渐进式对抗蒸馏的技术，实现前所未有的生成速度，该模型能够在 2 步或 4 步内生成极高质量和分辨率的图像，将生成速度加快十倍，是 1024 分辨率下速度最快的文生图模型，计算成本则降低为十分之一。该模型已经在 AI 开源社区 Hugging Face 上公开，跻身模型趋势榜，同时也成为上的热门模型。来源，频道：@kejiqu 群组：@kejiquchat

英伟达发文介绍“黄氏定律”：GPU 推理性能十年提升 1000 倍，无惧摩尔定律影响 - IT之家

英伟达 RTX 4070/4060/4050 笔记本 GPU 发布

英伟达 RTX 4070/4060/4050 笔记本 GPU 发布 RTX 4070 笔记本电脑 GPU 配备 AD106 GPU ，拥有 4608 个 CUDA 内核，频率高达 2175 MHz，配备 128 位宽的 8GB GDDR6 显存。 RTX 4060 GPU 拥有 3072 CUDA 内核，GPU 频率可达 2370MHz，搭载 128 位宽的 8GB 128bit GDDR6 显存。 RTX 4050 GPU 拥有 2560 CUDA 内核，搭载 6GB 96bit GDDR6 显存高价低能，依托答辩

相关推荐