NVIDIA“最强AI芯片”Blackwell B200 GPU令业内惊呼新的摩尔定律诞生

NVIDIA“最强AI芯片”Blackwell B200 GPU令业内惊呼新的摩尔定律诞生在GTC直播中，黄仁勋左手举着 B200 GPU，右手举着 H100此外，将两个B200 GPU与单个Grace CPU 结合在一起的 GB200，可以为LLM推理工作负载提供30倍的性能，并且显著提高效率。黄仁勋还强调称：“与H100相比，GB200的成本和能耗降低了25倍！关于市场近期颇为关注的能源消耗问题，B200 GPU也交出了最新的答卷。黄仁勋表示，此前训练一个1.8 万亿参数模型，需要8000 个 Hopper GPU 并消耗15 MW电力。但如今，2000 个 Blackwell GPU就可以实现这一目标，耗电量仅为4MW。在拥有1750亿参数的GPT-3大模型基准测试中，GB200的性能是H100的7倍，训练速度是H100的4倍。值得一提的是，B200 GPU的重要进步之一，是采用了第二代Transformer引擎。它通过对每个神经元使用4位（20 petaflops FP4）而不是8位，直接将计算能力、带宽和模型参数规模翻了一倍。而只有当这些大量的GPU连接在一起时，第二个重要区别才会显现，那就是新一代NVLink交换机可以让576个GPU相互通信，双向带宽高达1.8TB/秒。而这就需要英伟达构建一个全新的网络交换芯片，其中包括500亿个晶体管和一些自己的板载计算：拥有3.6 teraflops FP8处理能力。在此之前，仅16个GPU组成的集群，就会耗费60%的时间用于相互通信，只有40%的时间能用于实际计算。一石激起千层浪，“最强AI芯片”的推出让网友纷纷赞叹。其中英伟达高级科学家Jim Fan直呼：Blackwell新王诞生，新的摩尔定律已经应运而生。DGX Grace-Blackwell GB200：单个机架的计算能力超过1 Exaflop。黄仁勋交付给OpenAI的第一台DGX是0.17 Petaflops。GPT-4的1.8T参数可在2000个Blackwell上完成90天的训练。还有网友感叹：1000倍成就达成！Blackwell标志着在短短8年内，NVIDIA AI 芯片的计算能力实现了提升1000倍的历史性成就。2016 年，“Pascal”芯片的计算能力仅为19 teraflops，而今天Blackwell的计算能力已经达到了 20000 teraflops。相关文章:全程回顾黄仁勋GTC演讲：Blackwell架构B200芯片登场英伟达扩大与中国车企合作为比亚迪提供下一代车载芯片英伟达进军机器人领域发布世界首款人形机器人通用基础模型台积电、新思科技首次采用NVIDIA计算光刻平台：最快加速60倍NVIDIA共享虚拟现实环境技术将应用于苹果Vision Pro黄仁勋GTC演讲全文：最强AI芯片Blackwell问世推理能力提升30倍 ... PC版：手机版：

在Telegram中查看

相关推荐

英伟达发布用于人工智能的“世界上最强大芯片”Blackwell B200 GPU

英伟达发布用于人工智能的“世界上最强大芯片”Blackwell B200 GPU 英伟达的 H100 AI 芯片使其成为价值数万亿美元的公司，其价值可能超过 Alphabet 和亚马逊，而竞争对手一直在奋力追赶。但也许英伟达即将通过新的 Blackwell B200 GPU 和 GB200“超级芯片”扩大其领先地位。该公司在加州圣何塞举行的 GTC 大会上表示，新的 B200 GPU 拥有 2080 亿个晶体管，可提供高达 20petaflops 的 FP4 算力，而 GB200 将两个 GPU 和单个 Grace CPU 结合在一起，可为 LLM 推理工作负载提供30倍的性能，同时还可能大大提高效率。英伟达表示，在具有 1750 亿个参数的 GPT-3 LLM 基准测试中，GB200 的性能是 H100 的7倍，而英伟达称其训练速度是 H100 的4倍。

英伟达发布用于AI的"世界上最强大芯片"Blackwell B200 GPU

英伟达发布用于AI的"世界上最强大芯片"Blackwell B200 GPU NVIDIA 首席执行官黄仁勋在 GTC 现场直播中举起他的新 GPU（左边），右边是 H100。NVIDIA 表示，新的 B200 GPU 拥有 2080 亿个晶体管，可提供高达 20petaflops 的 FP4 算力，而 GB200 将两个 GPU 和一个 Grace CPU 结合在一起，可为 LLM 推理工作负载提供 30 倍的性能，同时还可能大大提高效率。NVIDIA 表示，与 H100 相比，它的成本和能耗"最多可降低 25 倍"。NVIDIA 声称，训练一个 1.8 万亿个参数的模型以前需要 8000 个 Hopper GPU 和 15 兆瓦的电力。如今，NVIDIA 首席执行官表示，2000 个 Blackwell GPU 就能完成这项工作，耗电量仅为 4 兆瓦。NVIDIA 表示，在具有 1750 亿个参数的 GPT-3 LLM 基准测试中，GB200 的性能是 H100 的 7 倍，而 NVIDIA 称其训练速度是 H100 的 4 倍。这就是 GB200 的样子。两个 GPU、一个 CPU、一块电路板NVIDIA 介绍说，其中一项关键改进是采用了第二代变压器引擎，通过为每个神经元使用四个比特而不是八个比特，将计算能力、带宽和模型大小提高了一倍（前面提到的 FP4 的 20 petaflops）。第二个关键区别只有在连接大量 GPU 时才会出现：新一代 NVLink 交换机可让 576 个 GPU 相互连接，双向带宽达到每秒 1.8 TB。这就要求 NVIDIA 打造一个全新的网络交换芯片，其中包含 500 亿个晶体管和一些自己的板载计算：NVIDIA 表示，该芯片拥有 3.6 teraflops 的 FP8 处理能力。NVIDIA 表示将通过 Blackwell 增加 FP4 和 FP6NVIDIA 表示，在此之前，由 16 个 GPU 组成的集群有 60% 的时间用于相互通信，只有 40% 的时间用于实际计算。当然，NVIDIA 还指望企业大量购买这些 GPU，并将它们包装成更大的设计，比如 GB200 NVL72，它将 36 个 CPU 和 72 个 GPU 集成到一个液冷机架中，可实现总计 720 petaflops 的 AI 训练性能或 1440 petaflops（又称 1.4exaflops）的推理性能。它内部有近两英里长的电缆，共有 5000 条独立电缆。GB200 NVL72机架上的每个托盘包含两个 GB200 芯片或两个 NVLink 交换机，每个机架有 18 个前者和 9 个后者。NVIDIA 称，其中一个机架总共可支持 27 万亿个参数模型。据传，GPT-4 的参数模型约为 1.7 万亿。该公司表示，亚马逊、Google、微软和甲骨文都已计划在其云服务产品中提供 NVL72 机架，但不清楚它们将购买多少。当然，NVIDIA 也乐于为公司提供其他解决方案。下面是用于 DGX GB200 的 DGX Superpod，它将八个系统合而为一，总共拥有 288 个 CPU、576 个 GPU、240TB 内存和 11.5 exaflops 的 FP4 计算能力。NVIDIA 称，其系统可扩展至数万 GB200 超级芯片，并通过其新型 Quantum-X800 InfiniBand（最多 144 个连接）或 Spectrum-X800 以太网（最多 64 个连接）与 800Gbps 网络连接在一起。我们预计今天不会听到任何关于新游戏 GPU 的消息，因为这一消息是在 NVIDIA 的 GPU 技术大会上发布的，而该大会通常几乎完全专注于 GPU 计算和人工智能，而不是游戏。不过，Blackwell GPU 架构很可能也会为未来的 RTX 50 系列桌面显卡提供算力。 ... PC版：手机版：

全程回顾黄仁勋GTC演讲：Blackwell架构B200芯片登场

全程回顾黄仁勋GTC演讲：Blackwell架构B200芯片登场在这场两个小时的演讲中，黄仁勋公布了搭载B200芯片的GB200 Grace Blackwell超级芯片系统，以及英伟达在AI软件（NIM微服务）、Omiverse云、具身智能方面的最新进展。以下为演讲内容回顾：黄仁勋登台，对观众们强调：我希望你们搞清楚今天这里不是演唱会，而是一场开发者大会。黄仁勋介绍了本届GTC的一些参与者，并强调这些公司不只是来参会，而是有自己的东西要来展示。黄仁勋展示英伟达发展史，又提了将首台DGX One送给OpenAI的故事。黄仁勋：今天我们将讨论这个新行业的许多问题。我们要谈谈如何进行计算、我们要谈谈你所构建的软件类型，你将如何看待这个新软件，新行业中的应用然后，也许（再谈谈）下一步是什么，我们如何从今天开始做准备，下一步会发生什么。黄仁勋：我们使用仿真工具来创造产品，并不是为了降低计算成本，而是为了扩大计算规模。我们希望能够以完全保真、完全数字化的方式模拟我们所做的整个产品。从本质上讲，我们称之为数字孪生。老黄开始介绍一系列“新加速生态系统”合作伙伴，包括ANSYS、Synopsis、Cadence等。他也提及，台积电和Synopsys将突破性的英伟达计算光刻平台投入生产。随着transformer模型被发明，我们能以惊人的速度扩展大型语言模型，实际上每六个月就能翻一番。而为了训练这些越来越大的模型，我们也需要更强的算力。“非常强大”的Blackwell架构GPU登场老黄现场对比Blackwell架构和Grace Hopper架构的GPU老黄现场展示Grace-Blackwell系统（两个Blackwell GPU、四个die与一个Grace Cpu连接在一起）。GB200将两个B200 Blackwell GPU与一个基于Arm的Grace CPU进行配对。新芯片拥有2080亿个晶体管，所有这些晶体管几乎同时访问与芯片连接的内存。为了处理大规模数据中心的GPU交互问题，也需要更强的连接（NVlink）能力。这个GB200新系统提升在哪里呢？老黄举例称，如果要训练一个1.8万亿参数量的GPT模型，需要8000张Hopper GPU，消耗15兆瓦的电力，连续跑上90天。但如果使用Blackwell GPU，只需要2000张，同样跑90天只要消耗四分之一的电力。当然不只是训练，生成Token的成本也会随之降低。把芯片做大的好处：单GPU每秒Token吞吐量翻了30倍毫无疑问，微软Azure、AWS、Google云等一众科技巨头都是Blackwell架构的首批用户。接下来应该是应用侧的部分，先展示的是生物医药的部分，包括NVIDIA DGX云中的多项更新。黄仁勋宣布新的AI微服务，用于开发和部署企业级生成式AI应用。老黄表示，未来如何开发软件？与现在写一行行代码不同，未来可能就要靠一堆NIMs（NVIDIA inference micro service），用与AI聊天的形式调动一堆NIMS来完成训练、应用的部署。英伟达的愿景是成为AI软件的“晶圆厂”。英伟达的AI微服务NIM网站已经上线。NIM微服务提供了最快、性能最高的AI生产容器，用于部署来自NVIDIA、A121、Adept、Cohere、Getty Images和Shutterstock的模型，以及来自Google、Hugging Face、Meta、Microsoft、Mistral AI和Stability AI的开放模型。NVIDIA AI Enterprise软件平台更新，包括NIM、构建RAG应用程序的工具等。随后老黄又分享了西门子科技、日产汽车等用如何在工作流中将Omiverse Cloud应用在工作流中。黄仁勋宣布，现在支持将Omniverse云推流至Vision Pro。可能是时间不太够了，老黄开始加速官宣一系列合作。其中提到全球最大电动车公司比亚迪将采用英伟达下一代智能汽车芯片Thor。比亚迪同时将使用英伟达基础设施进行自动驾驶模型训练，以及英伟达Isaac来设计/模拟智能工厂机器人。开始提机器人了。黄仁勋表示，在我们的世界里，类人机器人很有可能会发挥更大的作用，我们设置工作站、制造和物流的方式，并不是为人类设计的，而是为人类设计的。因此，这些人类或机器人的部署可能会更有成效。黄仁勋同时宣布一项名为GR00T的项目，旨在进一步推动英伟达在机器人和具身智能的突破性工作。由GR00T驱动的机器人可以理解自然语言，并通过观察人类动作来模拟运动。除了机器人影像外，迪士尼的orange和green机器人也来到现场，这款机器人用的是英伟达为机器人设计的首款AI芯片Jetson。黄仁勋带着机器人下场，现场播放ending影片黄仁勋返场告别，全场发布会结束。 ... PC版：手机版：

NVIDIA Blackwell B200 AI加速器下季度开始出货单价是传统服务器的10倍

NVIDIA Blackwell B200 AI加速器下季度开始出货单价是传统服务器的10倍据台湾《经济日报》报道，英伟达（NVIDIA）将于2024年第三季度至第四季度"小批量"出货其下一代GB200人工智能服务器，并将于2025年第一季度开始大规模出货。另据报道，每台 Blackwell 服务器的单价将是传统服务器的 10 倍。我们之前曾报道过每块 Blackwell GPU 的价格应高达 3.5 万美元，而一组 AI 服务器的价格可能高达 300 万美元。英伟达 DGX GB200"Blackwell"AI 服务器分为三个部分：DGX NVL72、NVL32 和 HGX B200。其中配置最高的是 NVL72，配备了 72 个英伟达 Blackwell B200 AI GPU 和 Grace Hopper CPU。据悉，富士康的子公司 Fii 将在下一季度出货部分 DGX GB200"NVL72"，而该公司早在 4 月份就已向客户交付了 NVL32 对应产品，因此该公司是首批向业界出货 Blackwell 产品的公司之一。除此之外，广达等合作伙伴也有望在本季度向客户交付英伟达的 Blackwell GB200 AI 服务器。虽然两家公司还没有透露谁是"独家"买家，但我们或许对此有所了解。我们曾报道过 Meta 已经下单了基于 Blackwell 的产品，包括 B200 AI GPU 和 AI 服务器，所以这可能是大部分产能的去向。微软和 OpenAI 也对英伟达的 Blackwell 表示了兴趣。 ... PC版：手机版：

现场直击GTC：性能翻30倍的Blackwell芯片黄仁勋宣告“新工业革命”来了

现场直击GTC：性能翻30倍的Blackwell芯片黄仁勋宣告“新工业革命”来了这里是硅谷很多演唱会和演出的举办地，占地4.2万平方米，曾举办过滚石和Bon Jovi 演唱会、美国NHL全明星赛，而现在站在舞台中央的是黄仁勋，他让现场的许多开发者想到了乔布斯。在一段预热片后，黄仁勋上台。背景停留在“我是AI”的界面。“希望大家意识到这不是一场演唱会。你来到的是个开发者大会。”黄仁勋说。这是一场只有模拟而没有动画的发布会。他说。这也让后来整场发布会越来越像科幻片。可能是人类历史上最科幻的一场发布会。“今天抵达GTC现场的公司们价值1 trillion。这么多伙伴，需要这么多的算力，怎么办？我们需要大得多的GPU。把所有GPU 连接起来，成千上万个大的GPU里是成千上万小的GPU，百万个GPU让你的效率提升！”然后他简单回顾了一下AI的发展历史，“20年前我们就看到了它会到来”。“然后CUDA和AI做了第一次亲密接触。”他说。“06年推出CUDA的时候，我们以为这是革命性的，会一夜成功，结果一等就等了二十年！”“今天的一切都是homemade。”在一个个通过AI模拟出来的酷炫的视频后，一切铺垫就绪了英伟达就是这一切进步的基石。是时候该发布重要芯片了。人们对此有预期，但当B200出现的时候，现场（可能包括全世界围观者）都还是忍不住惊呼。这是Hooper后的新一代架构，以数学家Blackwell命名。在性能上，它就是黄仁勋“黄氏定律”的集大成者和奠基者。以下是我用AI总结的Blackwell GPU的性能特点：高AI性能：B200 GPU提供高达20 petaflops的FP4计算能力，这是由其2080亿个晶体管提供的。高效推理：当与Grace CPU结合形成GB200超级芯片时，它能在LLM推理工作负载上提供比单个GPU高出30倍的性能，同时在成本和能源消耗上比H100 GPU高出25倍。训练能力：使用Blackwell GPU，训练一个1.8万亿参数的模型所需的GPU数量从8000个减少到2000个，同时电力消耗从15兆瓦降低到仅四兆瓦。GPT-3性能：在GPT-3 LLM基准测试中，GB200的性能是H100的七倍，训练速度提高了4倍。改进的Transformer引擎：第二代Transformer引擎通过使用每个神经元的四位而不是八位，实现了计算、带宽和模型大小的翻倍。下一代NVLink开关：允许多达576个GPU之间进行通信，提供每秒1.8太比特的双向带宽。新的网络交换芯片：拥有500亿晶体管和3.6 teraflops的FP8计算能力，用于支持大规模GPU集群的通信。扩展性：NVIDIA的系统可以扩展到数万个GB200超级芯片，通过800Gbps的Quantum-X800 InfiniBand或Spectrum-X800以太网连接。大规模部署：GB200 NVL72设计可以将36个CPU和72个GPU集成到一个液冷机架中，提供总共720 petaflops的AI训练性能或1.4 exaflops的推理性能。支持大型模型：单个NVL72机架可以支持高达27万亿参数的模型，而且有意思的是，黄仁勋似乎透露了一下GPT-4的参数，它可能是一个约1.7万亿参数的模型。（更多关于B200的解读我们会在今天稍晚带来，欢迎关注硅星人GTC后续报道）黄仁勋回顾了自己送给OpenAI的第一个DGX，它只有0.17Peataflops，而今天的DGX Grace-Blackwell GB200已经超过1 Exaflop的算力。老黄站在这张图前讲了半天，这画面让你觉得摩尔定律可能真的死了，黄氏定律正式登基。在B200的发布后，黄仁勋用一个AI生成的模拟短片介绍了“配套”的一系列产品，从集群到数据中心的交换机等。基本都是性能怪兽。GB200超级芯片就是将两个B200 GPU与一个Grace CPU结合在一起，它能将成本和能源消耗比 H100降低多达25倍”。黄仁勋表示自己可得拿稳了，“这块很贵，可能100亿？不过以后会便宜的。”现场爆笑。与此同时，他也强调了新一代芯片和相关产品在能耗上的改进。之前训练一个1.8万亿参数的模型需要使用8000个Hopper GPU和15兆瓦的电力。如今，使用2000个Blackwell GPU就可以完成相同的任务，同时仅消耗4兆瓦的电力。黄仁勋说，英伟达还正在将它们打包成更大的设计，比如GB200 NVL72，把36个CPU和72个GPU集成到一个单一的液冷机架中，提供总共720 petaflops 的AI训练性能或1440petaflops的推理性能。它内部有近乎两英里的电缆，包括5000条独立电缆。此外他也特意强调了推理性能的提升，毕竟英伟达最新的财报已经显示，它的收入越来越多的来自客户们在AI推理部分的支出。主要的云厂商也都被点名表扬了一下，他们和英伟达越来越不可分离。软件方面，黄仁勋介绍到，英伟达正在打包预训练模型及其附属延伸，并简化了称为NVIDIA推理微服务（NIMS）的微服务部署。这不仅仅是之前的CUDA，而是让模型更易于实施和管理的平台。“你现在就可以下载，带走，安装在你自己的数据中心”，他说道。并且NVIDIA提供服务帮助企业和应用程序对模型进行微调或定制。在罗列了一系列在气象和科学上的合作后，黄仁勋开始进入关于机器人技术的部分，这场发布会开始变得更加科幻。黄仁勋说，英伟达正在押注的下一代产品是能够控制人形机器人。Jetson Thor 就是接替NVIDIA Jetson Orin，为机器人技术推出的更新产品。“确实，世界是为人类设计的，所以我们希望使用英伟达Thor芯片和GR00T软件来训练和管理新一代的人形机器人。这样的机器人将能更好地适应人类设计的环境和工作流程，从而在多样的任务和场景中提供帮助。”机器人展示视频过后，舞台灯光再次亮起时，黄仁勋与身后所有由公司提供动力的人形机器人站在一起，向观众致意。不知为什么有种钢铁侠的意思~还领上来两个在NVIDIA Isaac SIM中学会走路的迪士尼小型机器人。黄仁勋说话时它们一直扭扭捏捏，让老黄不得不低头怜爱地低声说：“Orange（小机器人的名字），我在努力专心！不要再拖延时间了”超级可爱，把现场气氛推向高潮。而在黄仁勋和这两个小机器人一起“打开”的谢幕视频里，一架微型小飞船飞过英伟达历代GPU产品、架构，在光缆中完成了技术巡礼，最后飞机舱门不经意的打开，驾驶员正是黄仁勋的卡通虚拟数字人。主题演讲结束前，黄仁勋又总结了一遍今天的发布会，而近距离镜头可以看到，黄仁勋似乎有些带着泪光。“如果你问我，心目中的GPU是什么样子，今天的发布就是我的答案。”他说今天他展示了什么是英伟达的灵魂。“我们站在计算科学和物理等其他一切科学的交叉点”。这是他心里英伟达的定位。“新的工业革命来了。”而他没说的，是藏在今天一堆PPT里某一张的那行小字英伟达，新工业革命的引擎。这是黄仁勋的时代了。 ... PC版：手机版：

Azure AI 入门（三）摩尔定律，GPU与并行计算

Azure AI 入门（三）摩尔定律，GPU与并行计算摩尔定律(图一）是英特尔Intel创始人之一戈登·摩尔的经验之谈，其核心内容为：集成电路IC相同面积上可以容纳的晶体管Transistor数目在18个月到24个月便会增加一倍，因此处理器的性能大约每两年翻一倍，同时价格下降为之前的一半。虽然名为“定律”，但其只是根据20世纪中后期的发展趋势归纳而成。进入21世纪以后，以英特尔为代表的中央处理器CPU的发展趋势渐渐慢于摩尔的预测的。仅依靠单颗处理器的速度提升已无法满足日渐复杂的计算任务，比如3维图形的渲染（3D rendering)。因此，英伟达Nvidia在1999年提出了硬件图形处理器（Graphics Processing Unit)的概念，以大量的只能完成某些特殊任务的微处理器，代替少量的通用处理器。软件方面，并行计算也从专业科学领域逐渐向大众领域流行。用一个可能不是最恰当的比方，CPU像是由4位特级厨师组成的小组，可以完成任何烹饪任务，而GPU像是用同样工资请来的128位三明治店的员工。GPU不能做很多事，像完成一些特定的菜，但如果任务是制作2000人份的三明治，GPU一定可以依靠并行计算比CPU完成得快许多。 GPU与并行计算的普及，也使得云计算成为了可能。计算机科学家在设计计算任务时通常会首先考虑能否将大任务拆分成能同时进行的更小任务，从而可以同时运行在服务商提供的大量数目的CPU和GPU上。图二英伟达创始人黄仁勋 Jensen Huang

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人