推理速度提升十倍！英伟达发布ChatGPT核弹级GPU

推理速度提升十倍！英伟达发布ChatGPT核弹级GPU 当地时间周二，英伟达举办2023年春季GTC大会，黄仁勋穿着标志性皮夹克，向开发者披露最新的硬件和AI应用软件进展。在过去十年里，AI产业经历了历史性的飞跃。从2012年卷积神经网络AlexNet点燃了深度学习领域的“星星之火”，到ChatGPT一鸣惊人。黄仁勋表示，眼下整个AI产业正处于“iPhone时刻”创业公司正在竞相建立颠覆式的商业模型，而业界巨头也在寻找应对之道。GTC大会上，英伟达推出开源量子计算机软件Cuda Quantum，用于构建量子算法；与AT&T(T.N)合作，帮助提高调度服务的效率。当地时间3月21日，GTC大会，英伟达发布了专为ChatGPT设计的“核弹”GPU（图像芯片）H100 NVL，较之适用于GPT-3的A100，速度提升10倍。#视频 () 来自：雷锋频道：@kejiqu 群组：@kejiquchat 投稿：@kejiqubot

在Telegram中查看

相关推荐

推理速度提升十倍！英伟达发布ChatGPT核弹级GPU.mp4

AI推理速度提升超10倍 Groq LPU能否取代英伟达GPU？

AI推理速度提升超10倍 Groq LPU能否取代英伟达GPU？推理速度比GPU快10倍，功耗仅1/10据介绍，Groq的大模型推理芯片是全球首个LPU（Language Processing Unit）方案，是一款基于全新的TSA 架构的Tensor Streaming Processor (TSP) 芯片，旨在提高机器学习和人工智能等计算密集型工作负载的性能。虽然Groq的LPU并没有采用更本高昂的尖端制程工艺，而是选择了14nm制程，但是凭借自研的TSA 架构，Groq LPU 芯片具有高度的并行处理能力，可以同时处理数百万个数据流，并该芯片还集成了230MB容量的SRAM来替代DRAM，以保证内存带宽，其片上内存带宽高达80TB/s。根据官方的数据显示，Groq的LPU芯片的性能表现相当出色，可以提供高达1000 TOPS (Tera Operations Per Second) 的计算能力，并且在某些机器学习模型上的性能表现可以比常规的 GPU 和 TPU 提升10到100倍。Groq表示，基于其LPU芯片的云服务器在Llama2或Mistreal模型在计算和响应速度上远超基于NVIDIA AI GPU的ChatGPT，其每秒可以生成高达500个 token。相比之下，目前ChatGPT-3.5的公开版本每秒只能生成大约40个token。由于ChatGPT-3.5主要是基于NVIDIA的GPU，也就是说，Groq LPU芯片的响应速度达到了NVIDIA GPU的10倍以上。Groq表示，相对于其他云平台厂商的大模型推理性能，基于其LPU芯片的云服务器的大模型推理性能最终实现了比其他云平台厂商快18倍。另外，在能耗方面，NVIDIAGPU需要大约10到30焦耳才能生成响应中的tokens，而Groq LPU芯片仅需1到3焦耳，在推理速度大幅提升10倍的同时，其能耗成本仅有NVIDIAGPU的十分之一，这等于是性价比提高了100倍。Groq公司在演示中展示了其芯片的强大性能，支持Mistral AI的Mixtral8x7B SMoE，以及Meta的Llama2的7B和70B等多种模型，支持使用4096字节的上下文长度，并可直接体验Demo。不仅如此，Groq还喊话各大公司，扬言在三年内超越NVIDIA。目前该公司的LPU推理芯片在第三方网站上的售价为2万多美元，低于NVIDIA H100的2.5-3万美元。资料显示，Groq 是一家成立于2016年人工智能硬件初创公司，核心团队来源于谷歌最初的张量处理单元（TPU）工程团队。Groq 创始人兼CEO Jonathan Ross是谷歌TPU项目的核心研发人员。该公司硬件工程副总裁Jim Miller 曾是亚马逊云计算服务AWS设计算力硬件的负责人，还曾在英特尔领导了所有 Pentium II 工程。目前该公司筹集了超过 6200 万美元。为何采用大容量SRAM？Groq LPU芯片与大多数其他初创公司和现有的AI处理器有着截然不同的时序指令集计算机（Temporal Instruction Set Computer）架构，它被设计为一个强大的单线程流处理器，配备了专门设计的指令集，旨在利用张量操作和张量移动，使机器学习模型能够更有效地执行。该架构的独特之处在于执行单元、片内的SRAM内存和其他执行单元之间的交互。它无需像使用HBM（高带宽内存）的GPU那样频繁地从内存中加载数据。Groq 的神奇之处不仅在于硬件，还在于软件。软件定义的硬件在这里发挥着重要作用。Groq 的软件将张量流模型或其他深度学习模型编译成独立的指令流，并提前进行高度协调和编排。编排来自编译器。它提前确定并计划整个执行，从而实现非常确定的计算。“这种确定性来自于我们的编译器静态调度所有指令单元的事实。这使我们无需进行任何激进的推测即可公开指令级并行性。芯片上没有分支目标缓冲区或缓存代理，”Groq 的首席架构师 Dennis Abts 解释道。Groq LPU芯片为了追求性能最大化，因此添加了更多SRAM内存和执行块。SRAM全名为“静态随机存取存储器”（Static Random-Access Memory）是随机存取存储器的一种。所谓的“静态”，是指这种存储器只要保持通电，里面储存的数据就可以恒常保持。相对之下，动态随机存取存储器（DRAM）里面所储存的数据则需要周期性地更新。自SRAM推出60多年来，其一直是低延迟和高可靠性应用的首选存储器，事实上，对于 AI/ML 应用来说，SRAM 不仅仅具有其自身的优势。SRAM 对于 AI 至关重要，尤其是嵌入式 SRAM，它是性能最高的存储器，可以将其直接与高密度逻辑核心集成在一起。目前SRAM也是被诸多CPU集成在片内（更靠近CPU计算单元），作为CPU的高速缓存，使得CPU可以更直接、更快速的从SRAM中获取重要的数据，无需去DRAM当中读取。只不过，当前旗舰级CPU当中的SRAM容量最多也仅有几十个MB。Groq之所以选择使用大容量的 SRAM来替代DRAM 内存的原因主要有以下几点：1、SRAM 内存的访问速度比 DRAM 内存快得多，这意味着 LPU 芯片更快速地处理数据，从而提高计算性能。2、SRAM 内存没有 DRAM 内存的刷新延迟，这意味着LPU芯片也可以更高效地处理数据，减少延迟带来的影响。3、SRAM 内存的功耗比 DRAM 内存低，这意味着LPU芯片可以更有效地管理能耗，从而提高效率。但是，对于SRAM来说，其也有着一些劣势：1、面积更大：在逻辑晶体管随着CMOS工艺持续微缩的同时，SRAM的微缩却十分的困难。事实上，早在 20nm时代，SRAM 就无法随着逻辑晶体管的微缩相应地微缩。2、容量小：SRAM 的容量比 DRAM 小得多，这是因为每个bit的数据需要更多的晶体管来存储，再加上SRAM的微缩非常困难，使得相同面积下，SRAM容量远低于DRAM等存储器。这也使得SRAM在面对需要存储大量数据时的应用受到了限制。3、成本高：SRAM 的成本比 DRAM要高得多，再加上相同容量下，SRAM需要更多的晶体管来存储数据，这也使得其成本更高。总的来说，虽然SRAM 在尺寸、容量和成本等方面具有一些劣势，这些劣势限制了其在某些应用中的应用，但是 SRAM 的访问速度比 DRAM 快得多，这使得它在某些计算密集型应用中表现得非常出色。Groq LPU 芯片采用的大容量 SRAM 内存可以提供更高的带宽（高达80TB/s）、更低的功耗和更低的延迟，从而提高机器学习和人工智能等计算密集型工作负载的效率。那么，与目前AI GPU当中所搭载的 HBM 内存相比，Groq LPU 芯片集成的 SRAM 内存又有何优势和劣势呢？Groq LPU 芯片的 SRAM 内存容量虽然有230MB，但是相比之下AI GPU 中的 HBM 容量通常都有数十GB（比如NVIDIA H100，其集成了80GB HBM），这也意味着LPU 芯片可能无法处理更大的数据集和更复杂的模型。相同容量下，SRAM的成本也比HBM更高。不过，与HBM 相比，Groq LPU 芯片的所集成的 SRAM 的仍然有着带宽更快（NVIDIA H100的HBM带宽仅3TB/s）、功耗更低、延迟更低的优势。能否替代NVIDIA H00？虽然Groq公布的数据似乎表明，其LPU芯片的推理速度达到了NVIDIA GPU的10倍以上，并且能耗成本仅是它十分之一，等于是性价比提高了100倍。但是，Groq并且明确指出其比较的是NVIDIA的哪款GPU产品。由于目前NVIDIA最主流的AI GPU是H100，因此，我们就拿NVIDIA H100来与Groq LPU来做比较。由于Groq LPU只有230MB的片上SRAM来作为内存，因此，如果要运行Llama-2 70b模型，即使将Llama 2 70b量化到INT8精度，仍然需要70GB左右的内存。即使完全忽略内存消耗，也需要305张Groq LPU加速卡才够用。如果考虑到内存消耗，可能需要572张Groq LPU加速卡。官方数据显示，Groq LPU的平均功耗为185W，即使不计算外围设备的功耗，572张Groq LPU加速卡的总功耗也高达105.8kW。假设一张Groq LPU加速卡的价格为2万美元，因此，购买572张卡的成本高达1144万美元（规模采购价格应该可以更低）。根据人工智能科学家贾扬清分享的数据显示，目前，数据中心每月每千瓦的平均价格约为20美元，这意味着572张Groq LPU加速卡每年的电费为105.8*200*12=25.4万美元。贾扬清还表示，使用4张NVIDIA H100加速卡就可以实现572张Groq LPU一半的性能，这意味着一个8张H100的服务器的性能大致相当于572张Groq LPU。而8张H100加速卡... PC版：手机版：

英伟达发布用于人工智能的“世界上最强大芯片”Blackwell B200 GPU

英伟达发布用于人工智能的“世界上最强大芯片”Blackwell B200 GPU 英伟达的 H100 AI 芯片使其成为价值数万亿美元的公司，其价值可能超过 Alphabet 和亚马逊，而竞争对手一直在奋力追赶。但也许英伟达即将通过新的 Blackwell B200 GPU 和 GB200“超级芯片”扩大其领先地位。该公司在加州圣何塞举行的 GTC 大会上表示，新的 B200 GPU 拥有 2080 亿个晶体管，可提供高达 20petaflops 的 FP4 算力，而 GB200 将两个 GPU 和单个 Grace CPU 结合在一起，可为 LLM 推理工作负载提供30倍的性能，同时还可能大大提高效率。英伟达表示，在具有 1750 亿个参数的 GPT-3 LLM 基准测试中，GB200 的性能是 H100 的7倍，而英伟达称其训练速度是 H100 的4倍。

黄院士！英伟达黄仁勋当选美国工程院院士：GPU推动AI革命

黄院士！英伟达黄仁勋当选美国工程院院士：GPU推动AI革命被誉为“AI（人工智能）教父”的黄仁勋即将成为美国工程院院士。当地时间2月6日，美国国家工程院（National Academy of Engineering，简称NAE）公布了包含114位新院士和21位国际院士的2024年新增院士名单，英伟达创始人兼CEO黄仁勋赫然在列。 NAE表示，作为英伟达的联合创始人、总裁兼CEO，黄仁勋入选美国工程院院士的主要理由是：“他用高性能的图形处理单元（GPU)，推动了AI革命。” 就此，黄仁勋成为了继2022年入选的特斯拉CEO埃隆·马斯克和微软董事长兼CEO萨提亚·纳德拉之后，第三位当选美国工程院院士的科技行业领军人物，而他们三位都未获得博士学位。标签: #英伟达 #黄仁勋频道: @GodlyNews1 投稿: @GodlyNewsBot

属于英伟达的狂欢从未结束公司市值一夜暴涨1.1万亿元

属于英伟达的狂欢从未结束公司市值一夜暴涨1.1万亿元而且，英伟达今年迄今的涨幅也已达到惊人的85.62%。周二的部分涨势来自美国最新的通胀数据。美国劳工统计局周二公布的数据显示，2月消费者价格指数（CPI）同比上涨3.2%，环比上涨0.4%，市场预期分别为3.1%和0.4%。该数据虽然高于经济学家的预期，但比许多投资者担心的要低，从而提振了市场。Regan Capital首席投资官Skyler Weinand表示：“事实证明，很难看到什么可能会阻止市场的势头，因为企业盈利状况、通胀和利率都在朝着正确的方向发展。”还有部分涨势或许来自即将到来的英伟达2024年GTC大会所带来的乐观情绪。一年一度的AI全球顶级会议英伟达GTC（GPU Technology Conference）即将于3月18日至21日开幕，届时英伟达CEO黄仁勋将发表演讲，主题为“面向开发者的1#AI峰会（1# AI Conference for Developers）”。英伟达GTC 是开发人员和商业头脑聚集在一起获取实用技能并分享专业知识的地方。据悉本次大会将举办超过900场会议，包括加速计算工具和技术、AI模型与部署等12大主题，300多家参展商将展示组织如何实施英伟达平台，并且GTC还包含了20多个涵盖生成式AI等技术的研讨会。业内人士预测，本次GTC大会有望看到新一代旗舰GPU B100、全新推理平台、与联发科合作的汽车芯片细节以及软件业务的进展。 ... PC版：手机版：

英伟达股价再创历史新高市值已是AMD六倍

英伟达股价再创历史新高市值已是AMD六倍报道称，今日晚间英伟达股价大涨，消息面上，公司获高盛、美银上调目标价至800美元。据悉，英伟达目前已成为AI领域当之无愧的“霸主”，随着ChatGPT带来的GPU需求暴涨，英伟达去年的股价也累计上涨了239%。英伟达的传统优势是其游戏显卡，但人工智能是其另一个强项，也是该公司近年来取得更大成功的领域。与英特尔和AMD相比，英伟达目前拥有地表最快的人工智能GPUHopper H100和Ampere A100架构，数据中心、云和汽车领域对其也有巨大需求。有分析师指出，随着ChatGPT等AI技术的发展，英伟达GPU的销售额将会继续增加，甚至出现翻倍的业绩表现。 ... PC版：手机版：

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人