英伟达发布用于人工智能的“世界上最强大芯片”Blackwell B200 GPU

英伟达发布用于人工智能的“世界上最强大芯片”BlackwellB200GPU英伟达的H100AI芯片使其成为价值数亿美元的公司,其价值可能超过Alphabet和亚马逊,而竞争对手一直在奋力追赶。但也许英伟达即将通过新的BlackwellB200GPU和GB200“超级芯片”扩大其领先地位。该公司在加州圣何塞举行的GTC大会上表示,新的B200GPU拥有2080亿个晶体管,可提供高达20petaflops的FP4算力,而GB200将两个GPU和单个GraceCPU结合在一起,可为LLM推理工作负载提供30倍的性能,同时还可能大大提高效率。英伟达表示,在具有1750亿个参数的GPT-3LLM基准测试中,GB200的性能是H100的7倍,而英伟达称其训练速度是H100的4倍。——

相关推荐

封面图片

英伟达发布用于AI的"世界上最强大芯片"Blackwell B200 GPU

英伟达发布用于AI的"世界上最强大芯片"BlackwellB200GPUNVIDIA首席执行官黄仁勋在GTC现场直播中举起他的新GPU(左边),右边是H100。NVIDIA表示,新的B200GPU拥有2080亿个晶体管,可提供高达20petaflops的FP4算力,而GB200将两个GPU和一个GraceCPU结合在一起,可为LLM推理工作负载提供30倍的性能,同时还可能大大提高效率。NVIDIA表示,与H100相比,它的成本和能耗"最多可降低25倍"。NVIDIA声称,训练一个1.8万亿个参数的模型以前需要8000个HopperGPU和15兆瓦的电力。如今,NVIDIA首席执行官表示,2000个BlackwellGPU就能完成这项工作,耗电量仅为4兆瓦。NVIDIA表示,在具有1750亿个参数的GPT-3LLM基准测试中,GB200的性能是H100的7倍,而NVIDIA称其训练速度是H100的4倍。这就是GB200的样子。两个GPU、一个CPU、一块电路板NVIDIA介绍说,其中一项关键改进是采用了第二代变压器引擎,通过为每个神经元使用四个比特而不是八个比特,将计算能力、带宽和模型大小提高了一倍(前面提到的FP4的20petaflops)。第二个关键区别只有在连接大量GPU时才会出现:新一代NVLink交换机可让576个GPU相互连接,双向带宽达到每秒1.8TB。这就要求NVIDIA打造一个全新的网络交换芯片,其中包含500亿个晶体管和一些自己的板载计算:NVIDIA表示,该芯片拥有3.6teraflops的FP8处理能力。NVIDIA表示将通过Blackwell增加FP4和FP6NVIDIA表示,在此之前,由16个GPU组成的集群有60%的时间用于相互通信,只有40%的时间用于实际计算。当然,NVIDIA还指望企业大量购买这些GPU,并将它们包装成更大的设计,比如GB200NVL72,它将36个CPU和72个GPU集成到一个液冷机架中,可实现总计720petaflops的AI训练性能或1440petaflops(又称1.4exaflops)的推理性能。它内部有近两英里长的电缆,共有5000条独立电缆。GB200NVL72机架上的每个托盘包含两个GB200芯片或两个NVLink交换机,每个机架有18个前者和9个后者。NVIDIA称,其中一个机架总共可支持27万亿个参数模型。据传,GPT-4的参数模型约为1.7万亿。该公司表示,亚马逊、Google、微软和甲骨文都已计划在其云服务产品中提供NVL72机架,但不清楚它们将购买多少。当然,NVIDIA也乐于为公司提供其他解决方案。下面是用于DGXGB200的DGXSuperpod,它将八个系统合而为一,总共拥有288个CPU、576个GPU、240TB内存和11.5exaflops的FP4计算能力。NVIDIA称,其系统可扩展至数万GB200超级芯片,并通过其新型Quantum-X800InfiniBand(最多144个连接)或Spectrum-X800以太网(最多64个连接)与800Gbps网络连接在一起。我们预计今天不会听到任何关于新游戏GPU的消息,因为这一消息是在NVIDIA的GPU技术大会上发布的,而该大会通常几乎完全专注于GPU计算和人工智能,而不是游戏。不过,BlackwellGPU架构很可能也会为未来的RTX50系列桌面显卡提供算力。...PC版:https://www.cnbeta.com.tw/articles/soft/1424163.htm手机版:https://m.cnbeta.com.tw/view/1424163.htm

封面图片

英伟达最新人工智能芯片H200开始供货

英伟达最新人工智能芯片H200开始供货3月27日,英伟达宣布,开始供货尖端图像处理半导体(GPU)“H200”。H200是面向人工智能的半导体,性能超过现在的主打GPU“H100”。英伟达相继推出最新的人工智能半导体,目的是保持较高的市场份额。英伟达3月27日公布了H200的性能评测结果。用Meta的大规模语言模型(LLM)“Llama2”进行了比较,结果显示,与H100相比,H200使生成式人工智能导出答案的处理速度最高提高了45%。——

封面图片

NVIDIA“最强AI芯片”Blackwell B200 GPU令业内惊呼新的摩尔定律诞生

NVIDIA“最强AI芯片”BlackwellB200GPU令业内惊呼新的摩尔定律诞生在GTC直播中,黄仁勋左手举着B200GPU,右手举着H100此外,将两个B200GPU与单个GraceCPU结合在一起的GB200,可以为LLM推理工作负载提供30倍的性能,并且显著提高效率。黄仁勋还强调称:“与H100相比,GB200的成本和能耗降低了25倍!关于市场近期颇为关注的能源消耗问题,B200GPU也交出了最新的答卷。黄仁勋表示,此前训练一个1.8万亿参数模型,需要8000个HopperGPU并消耗15MW电力。但如今,2000个BlackwellGPU就可以实现这一目标,耗电量仅为4MW。在拥有1750亿参数的GPT-3大模型基准测试中,GB200的性能是H100的7倍,训练速度是H100的4倍。值得一提的是,B200GPU的重要进步之一,是采用了第二代Transformer引擎。它通过对每个神经元使用4位(20petaflopsFP4)而不是8位,直接将计算能力、带宽和模型参数规模翻了一倍。而只有当这些大量的GPU连接在一起时,第二个重要区别才会显现,那就是新一代NVLink交换机可以让576个GPU相互通信,双向带宽高达1.8TB/秒。而这就需要英伟达构建一个全新的网络交换芯片,其中包括500亿个晶体管和一些自己的板载计算:拥有3.6teraflopsFP8处理能力。在此之前,仅16个GPU组成的集群,就会耗费60%的时间用于相互通信,只有40%的时间能用于实际计算。一石激起千层浪,“最强AI芯片”的推出让网友纷纷赞叹。其中英伟达高级科学家JimFan直呼:Blackwell新王诞生,新的摩尔定律已经应运而生。DGXGrace-BlackwellGB200:单个机架的计算能力超过1Exaflop。黄仁勋交付给OpenAI的第一台DGX是0.17Petaflops。GPT-4的1.8T参数可在2000个Blackwell上完成90天的训练。还有网友感叹:1000倍成就达成!Blackwell标志着在短短8年内,NVIDIAAI芯片的计算能力实现了提升1000倍的历史性成就。2016年,“Pascal”芯片的计算能力仅为19teraflops,而今天Blackwell的计算能力已经达到了20000teraflops。相关文章:全程回顾黄仁勋GTC演讲:Blackwell架构B200芯片登场英伟达扩大与中国车企合作为比亚迪提供下一代车载芯片英伟达进军机器人领域发布世界首款人形机器人通用基础模型台积电、新思科技首次采用NVIDIA计算光刻平台:最快加速60倍NVIDIA共享虚拟现实环境技术将应用于苹果VisionPro黄仁勋GTC演讲全文:最强AI芯片Blackwell问世推理能力提升30倍...PC版:https://www.cnbeta.com.tw/articles/soft/1424217.htm手机版:https://m.cnbeta.com.tw/view/1424217.htm

封面图片

英伟达推出最强 AI 芯片 GB200

英伟达推出最强AI芯片GB200英伟达CEO黄仁勋在GTC宣布推出新一代GPUBlackwell,第一款Blackwell芯片名为GB200,将于今年晚些时候上市。Blackwell拥有2080亿个晶体管,采用台积电4nm制程。前一代GPU“Hopper”H100采用4nm工艺,集成晶体管800亿。黄仁勋表示:“Hopper很棒,但我们需要更大的GPU。Blackwell不是一个芯片,它是一个平台的名字。”英伟达表示,基于Blackwell的处理器,如GB200,为人工智能公司提供了巨大的性能升级,其AI性能为每秒20千万亿次浮点运算,而H100为每秒4千万亿次浮点运算。该系统可以部署一个27万亿参数的模型。据称GPT-4使用了约1.76万亿个参数来训练系统。

封面图片

在美国制裁期间,新的英伟达Blackwell GPU使中国在人工智能芯片方面进一步落后

在美国制裁期间,新的英伟达BlackwellGPU使中国在人工智能芯片方面进一步落后英伟达计划每年使用台积电世界领先的芯片制造技术升级其人工智能加速器在Nvidia创始人兼首席执行官JensenHuang为下一代处理器亮相,他称之为工业中使用的生成性人工智能和机器人的新时代后,中美在领先的人工智能(AI)芯片技术方面的差距将进一步扩大。英伟达最强大的Blackwell系列,包括B100、B200和GB200,增加了越来越多的GPU型号,这些型号被美国禁止运往中国,这是该公司去年收入第三大市场。中国顶级铸造厂半导体制造国际公司(SMIC)也受到美国的制裁,在增加制造人工智能芯片所需的更先进产能方面面临瓶颈。根据多个计算实验,华为的Ascend910B芯片已被中国各行业采用,只能实现NvidiaA100约60%至70%的性能。中国服务器制造商H3C的一位研究人员表示,许多本土芯片在性能和稳定性方面都落后于英伟达,这种滞后影响了中国大型人工智能模型的开发。这个人拒绝透露姓名,因为他无权与媒体交谈,他说H3C测试了各种GPU,包括来自Cambricon、IluvatarCorex和华为的GPU。华为云首席执行官张平安在最近的一次中国移动会议上表示,中国实现7纳米芯片生产并不容易,中国迅速发展到更先进的5纳米或3纳米节点的可能性很小华为的生态系统也不如英伟达的CUDA发达,后者已成为全球约500万开发人员使用的重要人工智能开发平台。相比之下,华为的同等产品在全球范围内的使用基础要小得多。southChinamorningpost

封面图片

英伟达发布新一代 AI 芯片 H200

英伟达发布新一代AI芯片H200H200利用了美光等公司推出的HBM3e内存,提供了141GB内存容量(H100的1.8倍)和4.8TB/s内存带宽(H100的1.4倍)。大型语言模型推理速度方面,GPT-3175B是H100的1.6倍(A100的18倍),LLaMA270B是H100的1.9倍。英伟达同时宣布2024年的H100产量翻倍,2024年第4季度发布基于新一代Blackwell架构的B100。投稿:@ZaiHuaBot频道:@TestFlightCN

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人