英伟达发布用于AI的"世界上最强大芯片"Blackwell B200 GPU

英伟达发布用于AI的"世界上最强大芯片"BlackwellB200GPUNVIDIA首席执行官黄仁勋在GTC现场直播中举起他的新GPU（左边），右边是H100。NVIDIA表示，新的B200GPU拥有2080亿个晶体管，可提供高达20petaflops的FP4算力，而GB200将两个GPU和一个GraceCPU结合在一起，可为LLM推理工作负载提供30倍的性能，同时还可能大大提高效率。NVIDIA表示，与H100相比，它的成本和能耗"最多可降低25倍"。NVIDIA声称，训练一个1.8万亿个参数的模型以前需要8000个HopperGPU和15兆瓦的电力。如今，NVIDIA首席执行官表示，2000个BlackwellGPU就能完成这项工作，耗电量仅为4兆瓦。NVIDIA表示，在具有1750亿个参数的GPT-3LLM基准测试中，GB200的性能是H100的7倍，而NVIDIA称其训练速度是H100的4倍。这就是GB200的样子。两个GPU、一个CPU、一块电路板NVIDIA介绍说，其中一项关键改进是采用了第二代变压器引擎，通过为每个神经元使用四个比特而不是八个比特，将计算能力、带宽和模型大小提高了一倍（前面提到的FP4的20petaflops）。第二个关键区别只有在连接大量GPU时才会出现：新一代NVLink交换机可让576个GPU相互连接，双向带宽达到每秒1.8TB。这就要求NVIDIA打造一个全新的网络交换芯片，其中包含500亿个晶体管和一些自己的板载计算：NVIDIA表示，该芯片拥有3.6teraflops的FP8处理能力。NVIDIA表示将通过Blackwell增加FP4和FP6NVIDIA表示，在此之前，由16个GPU组成的集群有60%的时间用于相互通信，只有40%的时间用于实际计算。当然，NVIDIA还指望企业大量购买这些GPU，并将它们包装成更大的设计，比如GB200NVL72，它将36个CPU和72个GPU集成到一个液冷机架中，可实现总计720petaflops的AI训练性能或1440petaflops（又称1.4exaflops）的推理性能。它内部有近两英里长的电缆，共有5000条独立电缆。GB200NVL72机架上的每个托盘包含两个GB200芯片或两个NVLink交换机，每个机架有18个前者和9个后者。NVIDIA称，其中一个机架总共可支持27万亿个参数模型。据传，GPT-4的参数模型约为1.7万亿。该公司表示，亚马逊、Google、微软和甲骨文都已计划在其云服务产品中提供NVL72机架，但不清楚它们将购买多少。当然，NVIDIA也乐于为公司提供其他解决方案。下面是用于DGXGB200的DGXSuperpod，它将八个系统合而为一，总共拥有288个CPU、576个GPU、240TB内存和11.5exaflops的FP4计算能力。NVIDIA称，其系统可扩展至数万GB200超级芯片，并通过其新型Quantum-X800InfiniBand（最多144个连接）或Spectrum-X800以太网（最多64个连接）与800Gbps网络连接在一起。我们预计今天不会听到任何关于新游戏GPU的消息，因为这一消息是在NVIDIA的GPU技术大会上发布的，而该大会通常几乎完全专注于GPU计算和人工智能，而不是游戏。不过，BlackwellGPU架构很可能也会为未来的RTX50系列桌面显卡提供算力。...PC版：https://www.cnbeta.com.tw/articles/soft/1424163.htm手机版：https://m.cnbeta.com.tw/view/1424163.htm

在Telegram中查看

相关推荐

英伟达发布用于人工智能的“世界上最强大芯片”Blackwell B200 GPU

英伟达发布用于人工智能的“世界上最强大芯片”BlackwellB200GPU英伟达的H100AI芯片使其成为价值数亿美元的公司，其价值可能超过Alphabet和亚马逊，而竞争对手一直在奋力追赶。但也许英伟达即将通过新的BlackwellB200GPU和GB200“超级芯片”扩大其领先地位。该公司在加州圣何塞举行的GTC大会上表示，新的B200GPU拥有2080亿个晶体管，可提供高达20petaflops的FP4算力，而GB200将两个GPU和单个GraceCPU结合在一起，可为LLM推理工作负载提供30倍的性能，同时还可能大大提高效率。英伟达表示，在具有1750亿个参数的GPT-3LLM基准测试中，GB200的性能是H100的7倍，而英伟达称其训练速度是H100的4倍。——

NVIDIA“最强AI芯片”Blackwell B200 GPU令业内惊呼新的摩尔定律诞生

NVIDIA“最强AI芯片”BlackwellB200GPU令业内惊呼新的摩尔定律诞生在GTC直播中，黄仁勋左手举着B200GPU，右手举着H100此外，将两个B200GPU与单个GraceCPU结合在一起的GB200，可以为LLM推理工作负载提供30倍的性能，并且显著提高效率。黄仁勋还强调称：“与H100相比，GB200的成本和能耗降低了25倍！关于市场近期颇为关注的能源消耗问题，B200GPU也交出了最新的答卷。黄仁勋表示，此前训练一个1.8万亿参数模型，需要8000个HopperGPU并消耗15MW电力。但如今，2000个BlackwellGPU就可以实现这一目标，耗电量仅为4MW。在拥有1750亿参数的GPT-3大模型基准测试中，GB200的性能是H100的7倍，训练速度是H100的4倍。值得一提的是，B200GPU的重要进步之一，是采用了第二代Transformer引擎。它通过对每个神经元使用4位（20petaflopsFP4）而不是8位，直接将计算能力、带宽和模型参数规模翻了一倍。而只有当这些大量的GPU连接在一起时，第二个重要区别才会显现，那就是新一代NVLink交换机可以让576个GPU相互通信，双向带宽高达1.8TB/秒。而这就需要英伟达构建一个全新的网络交换芯片，其中包括500亿个晶体管和一些自己的板载计算：拥有3.6teraflopsFP8处理能力。在此之前，仅16个GPU组成的集群，就会耗费60%的时间用于相互通信，只有40%的时间能用于实际计算。一石激起千层浪，“最强AI芯片”的推出让网友纷纷赞叹。其中英伟达高级科学家JimFan直呼：Blackwell新王诞生，新的摩尔定律已经应运而生。DGXGrace-BlackwellGB200：单个机架的计算能力超过1Exaflop。黄仁勋交付给OpenAI的第一台DGX是0.17Petaflops。GPT-4的1.8T参数可在2000个Blackwell上完成90天的训练。还有网友感叹：1000倍成就达成！Blackwell标志着在短短8年内，NVIDIAAI芯片的计算能力实现了提升1000倍的历史性成就。2016年，“Pascal”芯片的计算能力仅为19teraflops，而今天Blackwell的计算能力已经达到了20000teraflops。相关文章:全程回顾黄仁勋GTC演讲：Blackwell架构B200芯片登场英伟达扩大与中国车企合作为比亚迪提供下一代车载芯片英伟达进军机器人领域发布世界首款人形机器人通用基础模型台积电、新思科技首次采用NVIDIA计算光刻平台：最快加速60倍NVIDIA共享虚拟现实环境技术将应用于苹果VisionPro黄仁勋GTC演讲全文：最强AI芯片Blackwell问世推理能力提升30倍...PC版：https://www.cnbeta.com.tw/articles/soft/1424217.htm手机版：https://m.cnbeta.com.tw/view/1424217.htm

英伟达推出最强 AI 芯片 GB200

英伟达推出最强AI芯片GB200英伟达CEO黄仁勋在GTC宣布推出新一代GPUBlackwell，第一款Blackwell芯片名为GB200，将于今年晚些时候上市。Blackwell拥有2080亿个晶体管，采用台积电4nm制程。前一代GPU“Hopper”H100采用4nm工艺，集成晶体管800亿。黄仁勋表示：“Hopper很棒，但我们需要更大的GPU。Blackwell不是一个芯片，它是一个平台的名字。”英伟达表示，基于Blackwell的处理器，如GB200，为人工智能公司提供了巨大的性能升级，其AI性能为每秒20千万亿次浮点运算，而H100为每秒4千万亿次浮点运算。该系统可以部署一个27万亿参数的模型。据称GPT-4使用了约1.76万亿个参数来训练系统。

GTC 2024硬件一览：史上最强AI芯片GB200发布高达2080亿晶体管

GTC2024硬件一览：史上最强AI芯片GB200发布高达2080亿晶体管今年的GTC峰会主题完全围绕AI展开，2个小时的时间，老黄又一次带来了AI的变革时刻。当然除了老黄的开幕演讲外，后面还有900多场鼓舞人心的会议在等着你。同时此次GTC大会还吸引了超过200家展商，汇聚了数千名不同行业领域的从业人员一同参与。丰富多彩的技术分享、越见非凡的创新技术，称它是AI的盛会都不为过。想必你也好奇老黄究竟在GTC上带来了什么惊喜吧，别着急，本篇带你一睹GTC峰会上的那些硬件产品。见证AI的变革时刻峰会伊始，我们熟悉的皮衣刀客准时出场。一上来就直奔今天的主题——AI，并表示“加速式计算机的生产力已经到达了一个转折点，生成式AI正在加速发展，而我们需要以一种全新的方式进行计算，才能够进一步提高计算机生产力。”并且还贴心的展示了其自己亲手画出的关于计算机生产力的演变流程，最后一项正是今天的重点！改变形态的BlackwellGPU没错，老黄在GTC宣布推出新一代GPUBlackwell。这里先介绍一下Blackwell架构，此前NVIDIA推出的显卡一般是两种架构，其中游戏显卡例如我们熟悉的RTX40系则是AdaLovelace架构，而面向AI、大数据等应用的专业级显卡则采用Hopper架构。而老黄在大会上则表示“Blackwell不是一个芯片，它是一个平台的名字。”意思是Blackwell架构将同时用于以上两种类型的产品。借助这一架构，NVIDIA将推出涵盖多个应用领域的显卡，即RTX50系显卡也会是这个架构。并且从老黄手上的芯片可以看出，新的BlackwellGPU的体积明显比上代HopperGPU要更大一些。至于这个架构名字的由来，则要追溯到美国科学院首位黑人院士、加州大学伯克利分校首位黑人终身教授戴维·布莱克维尔（DavidBlackwell），它是著名的数学家、统计学家，不过很可惜的是这位教授在2010年因病去世。恐怖的2080亿晶体管言归正传，让我们继续关注此次BlackwellGPU。“我们需要更大的GPU，如果不能更大，就把更多GPU组合在一起，变成更大的虚拟GPU。”老黄在GTC上也确实这么干了。Blackwell架构的首个GPU为B200，由于目前4nm制程工艺已经接近极限，所以NVIDIA也玩起了“拼图”，B200采用台积电的4纳米（4NP）工艺蚀刻而成，由两个芯片通过NVLink5.0组合在一起，以10TB每秒的满血带宽互联，总的晶体管数量更是达到了恐怖的2080亿。第二代Transformer引擎除了芯片形态的变化外，Blackwell还有5大创新，首先就是第二代Transformer引擎。它支持FP4和FP6精度计算。得益于此，BlackwellGPU的FP4与FP6分别是Hopper的5倍与2.5倍。第五代NVLink互连第五代NVLink互连则是将多个BlackwellGPU组合起来的重要工具。它与传统的PCIe交换机不同，NVLink带宽有限，可以在服务器内的GPU之间实现高速直接互连。目前第五代NVLink可每个GPU提供了1.8TB/s双向吞吐量，确保多达576个GPU之间的无缝高速通信。RAS可靠性引擎这个RAS可靠性引擎则是基于AI实现，Blackwell透过专用的可靠性、可用性和可维护性(RAS)引擎，可增加智慧复原能力，及早辨认出可能发生的潜在故障，尽可能缩短停机时间。SecureAI安全AI功能SecureAI负责提供机密运算功能，同时Blackwell也是业界第一款支持EE-I/O的GPU，它可以在不影响性能的前提下，维护你的数据安全，这对于金融、医疗以及AI方面有极大作用。专用解压缩引擎最后一项创新技术则是关于解压缩层面，资料分析和资料库工作流程此前更多是仰赖CPU进行运算。如果放到GPU中进行则可大幅提升端对端分析的效能，加速创造价值，同时降低成本。Blackwell配备了专用的解压缩引擎，使用过程中可以配合内置的GraceCPU实现每秒900GB的双向频宽，并且还能兼顾最新的压缩格式(如LZ4、Snappy和Deflate等)。超级核弹GB200而两个B200GPU与GraceCPU结合就成为今天“火热”的GB200超级芯片。这款超级芯片的性能更加惊人，你以为H100已经很快了？不！GB200更快，过去，在90天内训练一个1.8万亿参数的MoE架构GPT模型，需要8000个Hopper架构GPU。现在，你只要2000个BlackwellGPU就可以完成。官方称，在标准的1750亿参数GPT-3基准测试中，GB200的性能是H100的7倍，提供的训练算力是H100的4倍。不止是性能更快更强，BlackwellGPU还相当节能。还是同样的操作，90天内训练一个1.8万亿参数的MoE架构GPT模型，8000个HopperGPU要耗费15兆瓦功耗，如今的BlackwellGPU仅需1/4的能耗就能实现。如果你需要更强劲的GPU，NVIDIA也面向有大型需求的企业提供成品服务，提供完整的服务器。例如：GB200NVL72，它将36个CPU和72个GPU插入一个液冷机架中，总共可实现720petaflops的AI训练性能或1,440petaflops（1.4exaflops）的推理。与相同数量的72个H100相比，GB200NVL72的性能绝对是逆天的存在，大模型推理性能可以提升30倍，并且成本和能耗只有前者的1/25。当然，最炸裂的要数适用于DGXGB200的DGXSuperpod，它将八个GB200NVL72合二为一，总共有288个CPU、576个GPU、240TB内存和11.5exaflops的FP4计算能力。老黄更是在GTC上直言“DGXSuperpod就是AI的革命工厂！”结语以上就是本次GTC2024的硬件相关报道，可能有玩家会说，怎么没有游戏显卡？其实按照过往惯例，NVIDIA并没有在GTC上推出消费级显卡的习惯。不过本次NVIDIA在GTC2024上推出的B100显卡所使用的架构是Blackwell，上面我们也讲过了，这是一个跨越数据中心与消费级产品的架构，这也就意味着我们熟悉的GeForce显卡应该也是同一架构的产品，不出意外的话，下半年我们就有望看到心心念念的RTX50系显卡了！...PC版：https://www.cnbeta.com.tw/articles/soft/1424219.htm手机版：https://m.cnbeta.com.tw/view/1424219.htm

NVIDIA Blackwell B200 AI加速器下季度开始出货单价是传统服务器的10倍

NVIDIABlackwellB200AI加速器下季度开始出货单价是传统服务器的10倍据台湾《经济日报》报道，英伟达（NVIDIA）将于2024年第三季度至第四季度"小批量"出货其下一代GB200人工智能服务器，并将于2025年第一季度开始大规模出货。另据报道，每台Blackwell服务器的单价将是传统服务器的10倍。我们之前曾报道过每块BlackwellGPU的价格应高达3.5万美元，而一组AI服务器的价格可能高达300万美元。英伟达DGXGB200"Blackwell"AI服务器分为三个部分：DGXNVL72、NVL32和HGXB200。其中配置最高的是NVL72，配备了72个英伟达BlackwellB200AIGPU和GraceHopperCPU。据悉，富士康的子公司Fii将在下一季度出货部分DGXGB200"NVL72"，而该公司早在4月份就已向客户交付了NVL32对应产品，因此该公司是首批向业界出货Blackwell产品的公司之一。除此之外，广达等合作伙伴也有望在本季度向客户交付英伟达的BlackwellGB200AI服务器。虽然两家公司还没有透露谁是"独家"买家，但我们或许对此有所了解。我们曾报道过Meta已经下单了基于Blackwell的产品，包括B200AIGPU和AI服务器，所以这可能是大部分产能的去向。微软和OpenAI也对英伟达的Blackwell表示了兴趣。...PC版：https://www.cnbeta.com.tw/articles/soft/1434212.htm手机版：https://m.cnbeta.com.tw/view/1434212.htm

NVIDIA Blackwell GPU预计售价3.5万美元 AI服务器售价高达300万美元

NVIDIABlackwellGPU预计售价3.5万美元AI服务器售价高达300万美元NVIDIA的Blackwell产品包括GPU、超级芯片平台和服务器，是每一家热衷于人工智能的大型科技公司所梦寐以求的。来自汇丰银行的分析师披露了即将推出的组件的预期定价，英伟达的BlackwellAI服务器机架这次的价格不菲，将超过300万美元大关，B100GPU等AI加速器单卖的标价也很高。这一消息来自《巴伦周刊》（Barron's）的资深撰稿人@firstadopter引用了汇丰银行（HSBC）对英伟达（NVIDIA）Blackwell产品的分析。从人工智能服务器开始，英伟达GB200NVL36服务器机架的单台售价预计为180万美元，而更高级的NVL72对应产品的售价则高达300万美元。我们在之前的报道中也透露了这一具体数额，因此实际数字可能不会太远。关于单卖的人工智能加速卡，汇丰银行表示，单个B100人工智能GPU的售价预计约为3万至3.5万美元，而GB200超级芯片的单价约为6万至7万美元。这些超级芯片包含两个GB100GPU和一个GraceHopper芯片，以及一个大型系统内存池（HBM3E）。这些估价也与詹森本人透露的价格基本一致。分析师的估算可能没有考虑实时市场情况、采购量和许多其他因素。因此，根据买家类型和订单的严重程度，实际数字可能会更低甚至更高。现在，如果我们从代际上进行比较，Blackwell价格肯定要比Hopper高。如果BlackwellAIGPU架构能够复制HopperGPU的成功应用，那么英伟达的市场份额和主导地位又将会有质的飞跃。谁知道呢，也许它将超越苹果和微软等公司，成为全球最有价值的公司之一。到目前为止，我们已经看到Meta等公司下达了Blackwell订单，微软和OpenAI也在其中，而这仅仅是首批订单。NVIDIA公司首席执行官黄仁勋（JensenHuang）早早识别出人工智能热潮的大手笔确实收到了成效。...PC版：https://www.cnbeta.com.tw/articles/soft/1430999.htm手机版：https://m.cnbeta.com.tw/view/1430999.htm

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人