英伟达发布 Blackwell 架构 GPU：包括 B200 和 GB200，大幅提升 AI 计算性能什么时候出消费级？

英伟达发布用于AI的"世界上最强大芯片"Blackwell B200 GPU

英伟达发布用于AI的"世界上最强大芯片"Blackwell B200 GPU NVIDIA 首席执行官黄仁勋在 GTC 现场直播中举起他的新 GPU（左边），右边是 H100。NVIDIA 表示，新的 B200 GPU 拥有 2080 亿个晶体管，可提供高达 20petaflops 的 FP4 算力，而 GB200 将两个 GPU 和一个 Grace CPU 结合在一起，可为 LLM 推理工作负载提供 30 倍的性能，同时还可能大大提高效率。NVIDIA 表示，与 H100 相比，它的成本和能耗"最多可降低 25 倍"。NVIDIA 声称，训练一个 1.8 万亿个参数的模型以前需要 8000 个 Hopper GPU 和 15 兆瓦的电力。如今，NVIDIA 首席执行官表示，2000 个 Blackwell GPU 就能完成这项工作，耗电量仅为 4 兆瓦。NVIDIA 表示，在具有 1750 亿个参数的 GPT-3 LLM 基准测试中，GB200 的性能是 H100 的 7 倍，而 NVIDIA 称其训练速度是 H100 的 4 倍。这就是 GB200 的样子。两个 GPU、一个 CPU、一块电路板NVIDIA 介绍说，其中一项关键改进是采用了第二代变压器引擎，通过为每个神经元使用四个比特而不是八个比特，将计算能力、带宽和模型大小提高了一倍（前面提到的 FP4 的 20 petaflops）。第二个关键区别只有在连接大量 GPU 时才会出现：新一代 NVLink 交换机可让 576 个 GPU 相互连接，双向带宽达到每秒 1.8 TB。这就要求 NVIDIA 打造一个全新的网络交换芯片，其中包含 500 亿个晶体管和一些自己的板载计算：NVIDIA 表示，该芯片拥有 3.6 teraflops 的 FP8 处理能力。NVIDIA 表示将通过 Blackwell 增加 FP4 和 FP6NVIDIA 表示，在此之前，由 16 个 GPU 组成的集群有 60% 的时间用于相互通信，只有 40% 的时间用于实际计算。当然，NVIDIA 还指望企业大量购买这些 GPU，并将它们包装成更大的设计，比如 GB200 NVL72，它将 36 个 CPU 和 72 个 GPU 集成到一个液冷机架中，可实现总计 720 petaflops 的 AI 训练性能或 1440 petaflops（又称 1.4exaflops）的推理性能。它内部有近两英里长的电缆，共有 5000 条独立电缆。GB200 NVL72机架上的每个托盘包含两个 GB200 芯片或两个 NVLink 交换机，每个机架有 18 个前者和 9 个后者。NVIDIA 称，其中一个机架总共可支持 27 万亿个参数模型。据传，GPT-4 的参数模型约为 1.7 万亿。该公司表示，亚马逊、Google、微软和甲骨文都已计划在其云服务产品中提供 NVL72 机架，但不清楚它们将购买多少。当然，NVIDIA 也乐于为公司提供其他解决方案。下面是用于 DGX GB200 的 DGX Superpod，它将八个系统合而为一，总共拥有 288 个 CPU、576 个 GPU、240TB 内存和 11.5 exaflops 的 FP4 计算能力。NVIDIA 称，其系统可扩展至数万 GB200 超级芯片，并通过其新型 Quantum-X800 InfiniBand（最多 144 个连接）或 Spectrum-X800 以太网（最多 64 个连接）与 800Gbps 网络连接在一起。我们预计今天不会听到任何关于新游戏 GPU 的消息，因为这一消息是在 NVIDIA 的 GPU 技术大会上发布的，而该大会通常几乎完全专注于 GPU 计算和人工智能，而不是游戏。不过，Blackwell GPU 架构很可能也会为未来的 RTX 50 系列桌面显卡提供算力。 ... PC版：手机版：

绕过CPU：英伟达与IBM致力推动GPU直连SSD以大幅提升性能 - nVIDIA -

英伟达新一代架构Blackwell来了：RTX 50、B200都要用功耗将超1000W

英伟达新一代架构Blackwell来了：RTX 50、B200都要用功耗将超1000W 按照最新爆料，B100将采用两个基于台积电CoWoS-L封装技术的芯片，连接到8个 8-Hi HBM3e显存堆栈，总容量为192GB，而这还不是唯一。爆料中还提到，B200的下一代Blackwell GP更新将利用12-Hi来实现更高的容量，显存达到了288GB，但不确定是否是HBM4。之前，戴尔首席运营官Jeff Clarke就曾爆料：英伟达将于2025年推出载有“Blackwell”架构的B200产品，功耗或将达到1000W。事实上基于这个架构的RTX 50系列功耗也不会太乐观，之前有消息称，RTX 5090用PCIe Gen 6的16-Pin供电接口后，功耗可以超过600W，而高端系列可以超过450W，中端功耗在300-350W之间。所以在这样架构的功耗下，RTX 5090显卡将比RTX 4090快60%到70%（近一倍）也不稀奇吧？ ... PC版：手机版：

全程回顾黄仁勋GTC演讲：Blackwell架构B200芯片登场

全程回顾黄仁勋GTC演讲：Blackwell架构B200芯片登场在这场两个小时的演讲中，黄仁勋公布了搭载B200芯片的GB200 Grace Blackwell超级芯片系统，以及英伟达在AI软件（NIM微服务）、Omiverse云、具身智能方面的最新进展。以下为演讲内容回顾：黄仁勋登台，对观众们强调：我希望你们搞清楚今天这里不是演唱会，而是一场开发者大会。黄仁勋介绍了本届GTC的一些参与者，并强调这些公司不只是来参会，而是有自己的东西要来展示。黄仁勋展示英伟达发展史，又提了将首台DGX One送给OpenAI的故事。黄仁勋：今天我们将讨论这个新行业的许多问题。我们要谈谈如何进行计算、我们要谈谈你所构建的软件类型，你将如何看待这个新软件，新行业中的应用然后，也许（再谈谈）下一步是什么，我们如何从今天开始做准备，下一步会发生什么。黄仁勋：我们使用仿真工具来创造产品，并不是为了降低计算成本，而是为了扩大计算规模。我们希望能够以完全保真、完全数字化的方式模拟我们所做的整个产品。从本质上讲，我们称之为数字孪生。老黄开始介绍一系列“新加速生态系统”合作伙伴，包括ANSYS、Synopsis、Cadence等。他也提及，台积电和Synopsys将突破性的英伟达计算光刻平台投入生产。随着transformer模型被发明，我们能以惊人的速度扩展大型语言模型，实际上每六个月就能翻一番。而为了训练这些越来越大的模型，我们也需要更强的算力。“非常强大”的Blackwell架构GPU登场老黄现场对比Blackwell架构和Grace Hopper架构的GPU老黄现场展示Grace-Blackwell系统（两个Blackwell GPU、四个die与一个Grace Cpu连接在一起）。GB200将两个B200 Blackwell GPU与一个基于Arm的Grace CPU进行配对。新芯片拥有2080亿个晶体管，所有这些晶体管几乎同时访问与芯片连接的内存。为了处理大规模数据中心的GPU交互问题，也需要更强的连接（NVlink）能力。这个GB200新系统提升在哪里呢？老黄举例称，如果要训练一个1.8万亿参数量的GPT模型，需要8000张Hopper GPU，消耗15兆瓦的电力，连续跑上90天。但如果使用Blackwell GPU，只需要2000张，同样跑90天只要消耗四分之一的电力。当然不只是训练，生成Token的成本也会随之降低。把芯片做大的好处：单GPU每秒Token吞吐量翻了30倍毫无疑问，微软Azure、AWS、Google云等一众科技巨头都是Blackwell架构的首批用户。接下来应该是应用侧的部分，先展示的是生物医药的部分，包括NVIDIA DGX云中的多项更新。黄仁勋宣布新的AI微服务，用于开发和部署企业级生成式AI应用。老黄表示，未来如何开发软件？与现在写一行行代码不同，未来可能就要靠一堆NIMs（NVIDIA inference micro service），用与AI聊天的形式调动一堆NIMS来完成训练、应用的部署。英伟达的愿景是成为AI软件的“晶圆厂”。英伟达的AI微服务NIM网站已经上线。NIM微服务提供了最快、性能最高的AI生产容器，用于部署来自NVIDIA、A121、Adept、Cohere、Getty Images和Shutterstock的模型，以及来自Google、Hugging Face、Meta、Microsoft、Mistral AI和Stability AI的开放模型。NVIDIA AI Enterprise软件平台更新，包括NIM、构建RAG应用程序的工具等。随后老黄又分享了西门子科技、日产汽车等用如何在工作流中将Omiverse Cloud应用在工作流中。黄仁勋宣布，现在支持将Omniverse云推流至Vision Pro。可能是时间不太够了，老黄开始加速官宣一系列合作。其中提到全球最大电动车公司比亚迪将采用英伟达下一代智能汽车芯片Thor。比亚迪同时将使用英伟达基础设施进行自动驾驶模型训练，以及英伟达Isaac来设计/模拟智能工厂机器人。开始提机器人了。黄仁勋表示，在我们的世界里，类人机器人很有可能会发挥更大的作用，我们设置工作站、制造和物流的方式，并不是为人类设计的，而是为人类设计的。因此，这些人类或机器人的部署可能会更有成效。黄仁勋同时宣布一项名为GR00T的项目，旨在进一步推动英伟达在机器人和具身智能的突破性工作。由GR00T驱动的机器人可以理解自然语言，并通过观察人类动作来模拟运动。除了机器人影像外，迪士尼的orange和green机器人也来到现场，这款机器人用的是英伟达为机器人设计的首款AI芯片Jetson。黄仁勋带着机器人下场，现场播放ending影片黄仁勋返场告别，全场发布会结束。 ... PC版：手机版：

英伟达发布 Blackwell 架构 GPU：包括 B200 和 GB200，大幅提升 AI 计算性能什么时候出消费级？

相关推荐

英伟达发布用于AI的"世界上最强大芯片"Blackwell B200 GPU

绕过CPU：英伟达与IBM致力推动GPU直连SSD以大幅提升性能 - nVIDIA -

英伟达新一代架构Blackwell来了：RTX 50、B200都要用功耗将超1000W

全程回顾黄仁勋GTC演讲：Blackwell架构B200芯片登场

英伟达CEO黄仁勋宣布新款Blackwell GPU，称其“非常强大”。标签: #英伟达 #Blackwell 频道: @G

Adobe Premiere Pro 22.2 发布，英伟达 / 英特尔 GPU 编码速度大幅提升 - IT之家

相关推荐

英伟达发布用于AI的"世界上最强大芯片"Blackwell B200 GPU

绕过CPU：英伟达与IBM致力推动GPU直连SSD以大幅提升性能 - nVIDIA -

英伟达新一代架构Blackwell来了：RTX 50、B200都要用 功耗将超1000W

全程回顾黄仁勋GTC演讲：Blackwell架构B200芯片登场

英伟达CEO黄仁勋宣布新款Blackwell GPU，称其“非常强大”。 标签: #英伟达 #Blackwell 频道: @G

Adobe Premiere Pro 22.2 发布，英伟达 / 英特尔 GPU 编码速度大幅提升 - IT之家

英伟达新一代架构Blackwell来了：RTX 50、B200都要用功耗将超1000W

英伟达CEO黄仁勋宣布新款Blackwell GPU，称其“非常强大”。标签: #英伟达 #Blackwell 频道: @G