全程回顾黄仁勋GTC演讲:Blackwell架构B200芯片登场

全程回顾黄仁勋GTC演讲:Blackwell架构B200芯片登场 在这场两个小时的演讲中,黄仁勋公布了搭载B200芯片的GB200 Grace Blackwell超级芯片系统,以及英伟达在AI软件(NIM微服务)、Omiverse云、具身智能方面的最新进展。以下为演讲内容回顾:黄仁勋登台,对观众们强调:我希望你们搞清楚今天这里不是演唱会,而是一场开发者大会。黄仁勋介绍了本届GTC的一些参与者,并强调这些公司不只是来参会,而是有自己的东西要来展示。黄仁勋展示英伟达发展史,又提了将首台DGX One送给OpenAI的故事。黄仁勋:今天我们将讨论这个新行业的许多问题。我们要谈谈如何进行计算、我们要谈谈你所构建的软件类型,你将如何看待这个新软件,新行业中的应用 然后,也许(再谈谈)下一步是什么,我们如何从今天开始做准备,下一步会发生什么。黄仁勋:我们使用仿真工具来创造产品,并不是为了降低计算成本,而是为了扩大计算规模。我们希望能够以完全保真、完全数字化的方式模拟我们所做的整个产品。从本质上讲,我们称之为数字孪生。老黄开始介绍一系列“新加速生态系统”合作伙伴,包括ANSYS、Synopsis、Cadence等。他也提及,台积电和Synopsys将突破性的英伟达计算光刻平台投入生产。随着transformer模型被发明,我们能以惊人的速度扩展大型语言模型,实际上每六个月就能翻一番。而为了训练这些越来越大的模型,我们也需要更强的算力。“非常强大”的Blackwell架构GPU登场老黄现场对比Blackwell架构和Grace Hopper架构的GPU老黄现场展示Grace-Blackwell系统(两个Blackwell GPU、四个die与一个Grace Cpu连接在一起)。GB200将两个B200 Blackwell GPU与一个基于Arm的Grace CPU进行配对。新芯片拥有2080亿个晶体管,所有这些晶体管几乎同时访问与芯片连接的内存。为了处理大规模数据中心的GPU交互问题,也需要更强的连接(NVlink)能力。这个GB200新系统提升在哪里呢?老黄举例称,如果要训练一个1.8万亿参数量的GPT模型,需要8000张Hopper GPU,消耗15兆瓦的电力,连续跑上90天。但如果使用Blackwell GPU,只需要2000张,同样跑90天只要消耗四分之一的电力。当然不只是训练,生成Token的成本也会随之降低。把芯片做大的好处:单GPU每秒Token吞吐量翻了30倍毫无疑问,微软Azure、AWS、Google云等一众科技巨头都是Blackwell架构的首批用户。接下来应该是应用侧的部分,先展示的是生物医药的部分,包括NVIDIA DGX云中的多项更新。黄仁勋宣布新的AI微服务,用于开发和部署企业级生成式AI应用。老黄表示,未来如何开发软件?与现在写一行行代码不同,未来可能就要靠一堆NIMs(NVIDIA inference micro service),用与AI聊天的形式调动一堆NIMS来完成训练、应用的部署。英伟达的愿景是成为AI软件的“晶圆厂”。英伟达的AI微服务NIM网站已经上线。NIM微服务提供了最快、性能最高的AI生产容器,用于部署来自NVIDIA、A121、Adept、Cohere、Getty Images和Shutterstock的模型,以及来自Google、Hugging Face、Meta、Microsoft、Mistral AI和Stability AI的开放模型。NVIDIA AI Enterprise软件平台更新,包括NIM、构建RAG应用程序的工具等。随后老黄又分享了西门子科技、日产汽车等用如何在工作流中将Omiverse Cloud应用在工作流中。黄仁勋宣布,现在支持将Omniverse云推流至Vision Pro。可能是时间不太够了,老黄开始加速官宣一系列合作。其中提到全球最大电动车公司比亚迪将采用英伟达下一代智能汽车芯片Thor。比亚迪同时将使用英伟达基础设施进行自动驾驶模型训练,以及英伟达Isaac来设计/模拟智能工厂机器人。开始提机器人了。黄仁勋表示,在我们的世界里,类人机器人很有可能会发挥更大的作用,我们设置工作站、制造和物流的方式,并不是为人类设计的,而是为人类设计的。因此,这些人类或机器人的部署可能会更有成效。黄仁勋同时宣布一项名为GR00T的项目,旨在进一步推动英伟达在机器人和具身智能的突破性工作。由GR00T驱动的机器人可以理解自然语言,并通过观察人类动作来模拟运动。除了机器人影像外,迪士尼的orange和green机器人也来到现场,这款机器人用的是英伟达为机器人设计的首款AI芯片Jetson。黄仁勋带着机器人下场,现场播放ending影片黄仁勋返场告别,全场发布会结束。 ... PC版: 手机版:

相关推荐

封面图片

现场直击GTC:性能翻30倍的Blackwell芯片 黄仁勋宣告“新工业革命”来了

现场直击GTC:性能翻30倍的Blackwell芯片 黄仁勋宣告“新工业革命”来了 这里是硅谷很多演唱会和演出的举办地,占地4.2万平方米,曾举办过滚石和Bon Jovi 演唱会、美国NHL全明星赛,而现在站在舞台中央的是黄仁勋,他让现场的许多开发者想到了乔布斯。在一段预热片后,黄仁勋上台。背景停留在“我是AI”的界面。“希望大家意识到这不是一场演唱会。你来到的是个开发者大会。”黄仁勋说。这是一场只有模拟而没有动画的发布会。他说。这也让后来整场发布会越来越像科幻片。可能是人类历史上最科幻的一场发布会。“今天抵达GTC现场的公司们价值1 trillion。这么多伙伴,需要这么多的算力,怎么办?我们需要大得多的GPU。把所有GPU 连接起来,成千上万个大的GPU里是成千上万小的GPU, 百万个GPU让你的效率提升!”然后他简单回顾了一下AI的发展历史,“20年前我们就看到了它会到来”。“然后CUDA和AI做了第一次亲密接触。”他说。“06年推出CUDA的时候,我们以为这是革命性的,会一夜成功,结果一等就等了二十年!”“今天的一切都是homemade。”在一个个通过AI模拟出来的酷炫的视频后,一切铺垫就绪了英伟达就是这一切进步的基石。是时候该发布重要芯片了。人们对此有预期,但当B200出现的时候,现场(可能包括全世界围观者)都还是忍不住惊呼。这是Hooper后的新一代架构,以数学家Blackwell命名。在性能上,它就是黄仁勋“黄氏定律”的集大成者和奠基者。以下是我用AI总结的Blackwell GPU的性能特点:高AI性能:B200 GPU提供高达20 petaflops的FP4计算能力,这是由其2080亿个晶体管提供的。高效推理:当与Grace CPU结合形成GB200超级芯片时,它能在LLM推理工作负载上提供比单个GPU高出30倍的性能,同时在成本和能源消耗上比H100 GPU高出25倍。训练能力:使用Blackwell GPU,训练一个1.8万亿参数的模型所需的GPU数量从8000个减少到2000个,同时电力消耗从15兆瓦降低到仅四兆瓦。GPT-3性能:在GPT-3 LLM基准测试中,GB200的性能是H100的七倍,训练速度提高了4倍。改进的Transformer引擎:第二代Transformer引擎通过使用每个神经元的四位而不是八位,实现了计算、带宽和模型大小的翻倍。下一代NVLink开关:允许多达576个GPU之间进行通信,提供每秒1.8太比特的双向带宽。新的网络交换芯片:拥有500亿晶体管和3.6 teraflops的FP8计算能力,用于支持大规模GPU集群的通信。扩展性:NVIDIA的系统可以扩展到数万个GB200超级芯片,通过800Gbps的Quantum-X800 InfiniBand或Spectrum-X800以太网连接。大规模部署:GB200 NVL72设计可以将36个CPU和72个GPU集成到一个液冷机架中,提供总共720 petaflops的AI训练性能或1.4 exaflops的推理性能。支持大型模型:单个NVL72机架可以支持高达27万亿参数的模型,而且有意思的是,黄仁勋似乎透露了一下GPT-4的参数,它可能是一个约1.7万亿参数的模型。(更多关于B200的解读我们会在今天稍晚带来,欢迎关注硅星人GTC后续报道)黄仁勋回顾了自己送给OpenAI的第一个DGX,它只有0.17Peataflops,而今天的DGX Grace-Blackwell GB200已经超过1 Exaflop的算力。老黄站在这张图前讲了半天,这画面让你觉得摩尔定律可能真的死了,黄氏定律正式登基。在B200的发布后,黄仁勋用一个AI生成的模拟短片介绍了“配套”的一系列产品,从集群到数据中心的交换机等。基本都是性能怪兽。GB200超级芯片就是将两个B200 GPU与一个Grace CPU结合在一起,它能将成本和能源消耗比 H100降低多达25倍”。黄仁勋表示自己可得拿稳了,“这块很贵,可能100亿?不过以后会便宜的。”现场爆笑。与此同时,他也强调了新一代芯片和相关产品在能耗上的改进。之前训练一个1.8万亿参数的模型需要使用8000个Hopper GPU和15兆瓦的电力。如今,使用2000个Blackwell GPU就可以完成相同的任务,同时仅消耗4兆瓦的电力。黄仁勋说,英伟达还正在将它们打包成更大的设计,比如GB200 NVL72,把36个CPU和72个GPU集成到一个单一的液冷机架中,提供总共720 petaflops 的AI训练性能或1440petaflops的推理性能。它内部有近乎两英里的电缆,包括5000条独立电缆。此外他也特意强调了推理性能的提升,毕竟英伟达最新的财报已经显示,它的收入越来越多的来自客户们在AI推理部分的支出。主要的云厂商也都被点名表扬了一下,他们和英伟达越来越不可分离。软件方面, 黄仁勋介绍到,英伟达正在打包预训练模型及其附属延伸,并简化了称为NVIDIA推理微服务(NIMS)的微服务部署。这不仅仅是之前的CUDA,而是让模型更易于实施和管理的平台。“你现在就可以下载,带走,安装在你自己的数据中心”,他说道。并且NVIDIA提供服务帮助企业和应用程序对模型进行微调或定制。在罗列了一系列在气象和科学上的合作后,黄仁勋开始进入关于机器人技术的部分,这场发布会开始变得更加科幻。黄仁勋说,英伟达正在押注的下一代产品是能够控制人形机器人。Jetson Thor 就是接替NVIDIA Jetson Orin,为机器人技术推出的更新产品。“确实,世界是为人类设计的,所以我们希望使用英伟达Thor芯片和GR00T软件来训练和管理新一代的人形机器人。这样的机器人将能更好地适应人类设计的环境和工作流程,从而在多样的任务和场景中提供帮助。”机器人展示视频过后,舞台灯光再次亮起时,黄仁勋与身后所有由公司提供动力的人形机器人站在一起,向观众致意。不知为什么有种钢铁侠的意思~还领上来两个在NVIDIA Isaac SIM中学会走路的迪士尼小型机器人。黄仁勋说话时它们一直扭扭捏捏,让老黄不得不低头怜爱地低声说:“Orange(小机器人的名字),我在努力专心!不要再拖延时间了”超级可爱,把现场气氛推向高潮。而在黄仁勋和这两个小机器人一起“打开”的谢幕视频里,一架微型小飞船飞过英伟达历代GPU产品、架构,在光缆中完成了技术巡礼,最后飞机舱门不经意的打开,驾驶员正是黄仁勋的卡通虚拟数字人。主题演讲结束前,黄仁勋又总结了一遍今天的发布会,而近距离镜头可以看到,黄仁勋似乎有些带着泪光。“如果你问我,心目中的GPU是什么样子,今天的发布就是我的答案。”他说今天他展示了什么是英伟达的灵魂。“我们站在计算科学和物理等其他一切科学的交叉点”。这是他心里英伟达的定位。“新的工业革命来了。”而他没说的,是藏在今天一堆PPT里某一张的那行小字英伟达,新工业革命的引擎。这是黄仁勋的时代了。 ... PC版: 手机版:

封面图片

黄仁勋公布NVIDIA路线图:明年升级Blackwell芯片 后年推出新一代AI平台

黄仁勋公布NVIDIA路线图:明年升级Blackwell芯片 后年推出新一代AI平台 在演讲开头,黄仁勋称自己很想用中文进行本次演讲,但因为要说的内容太多,对他而言难度过高。黄仁勋表示,自己的演讲有两个重点,即加速计算和AI,这两个要素“将能够重启电脑产业”。随后,黄仁勋花了较大篇幅来强调英伟达运算平台CUDA的重要性。黄仁勋表示,作为使用神经网络来进行深度学习的平台,CUDA显著推动了计算机科学在近20年内的进展。现在,全球已有500万名CUDA开发者。黄仁勋指出,CUDA已经实现了“良性循环”,能够在运算基础不断增长的情况下,扩大生态系统,令成本不断下降:“这将促使更多的开发人员提出更多的想法,带来更多的需求实验,成为伟大事业的开端。”黄仁勋称CUDA平台已实现良性循环。来源:英伟达直播此外,黄仁勋还重点介绍了英伟达仿真平台Omniverse。据介绍,Omniverse已经帮助众多大厂实现了数字孪生。例如,通过运用Omniverse,工厂可以事先规划流水线,气象学家可以预测极端气候等等。谈到英伟达的核心产品芯片,黄仁勋再次重申“买越多、省越多”。黄仁勋表示,计算机行业在中央处理器(CPU)上运行的引擎,其性能扩展速度已经大大降低。然而,需要处理的数据“继续呈指数级增长”,如果保持原状,人们将不得不经历计算膨胀和计算成本的提升。而在这种情况下,有一种更好的方法增强计算机的处理性能,那就是通过计算机增强CPU来提供加速计算:“现在,CPU的扩展速度逐渐放缓,最终会基本走向停止。我们应该让每一个处理密集型应用程序都得到加速,每个数据中心也就会得到加速。加速计算是非常明智的,这是普通常识。”黄仁勋宣传CPU和GPU相结合的加速计算。来源:英伟达直播在台上,黄仁勋又一次展示了英伟达在今年3月GTC大会上推出的最新Blackwell芯片,以及由其组装而成的机箱,乃至规模庞大的数据中心示意图。黄仁勋自豪地表示:“只有英伟达能做到,只有我们能做到。”更重要的是,黄仁勋透露,随着Blackwell芯片开始生产,英伟达计划每年升级AI加速器和AI芯片,预计将于2025年推出Blackwell Ultra,在2026年推出名为“Rubin”的下一代AI平台,该平台将采用HBM4内存。此前,天风国际分析师郭明𫓹预测,英伟达的下一代AI芯片“Rubin”系列/R100将在2025年第四季度开始量产。黄仁勋“剧透”英伟达此后的芯片规划。来源:英伟达直播就在半个月前,在发布2025财年第一财季财报后的英伟达业绩会上,黄仁勋曾表示,Blackwell芯片已经在“满负荷生产”,预计年内为公司“带来大量收入”。黄仁勋还屡次强调“我们正在加速”,称将在AI芯片上实现“一年一上新”。本次演讲的最后,话题又回到了机器人身上。据介绍,比亚迪、西门子、泰瑞达和Alphabet 旗下公司Intrinsic等全球十多家机器人行业领先企业已经在研究、开发和生产中采用NVIDIA Isaac机器人平台。黄仁勋表示:“机器人时代已经到来。有朝一日,移动的物体都将实现自主运行。”在截至4月28日的2025财年第一财季,英伟达期内实现营收260.44亿美元,同比上涨262%;净利润148.81亿美元,同比上涨628%。同时,该公司对下一季度的业绩做出指引,预测2025财年第二财季的销售额将达到280亿美元,上下浮动2%,高于市场预期的266亿美元。发布第一财季财报后,英伟达股价一度迅速飙升,助公司股价突破1000美元。当地时间5月31日,英伟达(Nasdaq:NVDA)股价收于每股1095.95美元,跌0.82%,总市值2.70万亿美元。据Wind数据,在过去的2023年中,英伟达股价涨幅超230%,今年以来涨幅已达到121.39%。 ... PC版: 手机版:

封面图片

英伟达黄仁勋:Blackwell 是史上最成功产品

英伟达黄仁勋:Blackwell 是史上最成功产品 英伟达6月26日举行股东会,公司所提出的四个议案,股东全数通过。首席执行官黄仁勋特别强调英伟达新的 Blackwell 平台的优越性,同时展望公司在人工智能技术进化过程中能够得到的发展机会。英伟达向股东报告,黄仁勋在2024会计年度获得的薪酬合计3,420万美元,较前一个年度增加近60%。黄仁勋表示,英伟达已经将重心从游戏移至数据,公司寻求为人工智能创造新市场,如工业机器人等领域,将与各家电脑制造商和云服务从业者合作来达成目标。黄仁勋在会上表示,“Blackwell 可能是我们史上最成功的产品,也可能是电脑史上最成功的产品。”

封面图片

NVIDIA“最强AI芯片”Blackwell B200 GPU令业内惊呼新的摩尔定律诞生

NVIDIA“最强AI芯片”Blackwell B200 GPU令业内惊呼新的摩尔定律诞生 在GTC直播中,黄仁勋左手举着 B200 GPU,右手举着 H100此外,将两个B200 GPU与单个Grace CPU 结合在一起的 GB200,可以为LLM推理工作负载提供30倍的性能,并且显著提高效率。黄仁勋还强调称:“与H100相比,GB200的成本和能耗降低了25倍!关于市场近期颇为关注的能源消耗问题,B200 GPU也交出了最新的答卷。黄仁勋表示,此前训练一个1.8 万亿参数模型,需要8000 个 Hopper GPU 并消耗15 MW电力。但如今,2000 个 Blackwell GPU就可以实现这一目标,耗电量仅为4MW。在拥有1750亿参数的GPT-3大模型基准测试中,GB200的性能是H100的7倍,训练速度是H100的4倍。值得一提的是,B200 GPU的重要进步之一,是采用了第二代Transformer引擎。它通过对每个神经元使用4位(20 petaflops FP4)而不是8位,直接将计算能力、带宽和模型参数规模翻了一倍。而只有当这些大量的GPU连接在一起时,第二个重要区别才会显现,那就是新一代NVLink交换机可以让576个GPU相互通信,双向带宽高达1.8TB/秒。而这就需要英伟达构建一个全新的网络交换芯片,其中包括500亿个晶体管和一些自己的板载计算:拥有3.6 teraflops FP8处理能力。在此之前,仅16个GPU组成的集群,就会耗费60%的时间用于相互通信,只有40%的时间能用于实际计算。一石激起千层浪,“最强AI芯片”的推出让网友纷纷赞叹。其中英伟达高级科学家Jim Fan直呼:Blackwell新王诞生,新的摩尔定律已经应运而生。DGX Grace-Blackwell GB200:单个机架的计算能力超过1 Exaflop。黄仁勋交付给OpenAI的第一台DGX是0.17 Petaflops。GPT-4的1.8T参数可在2000个Blackwell上完成90天的训练。还有网友感叹:1000倍成就达成!Blackwell标志着在短短8年内,NVIDIA AI 芯片的计算能力实现了提升1000倍的历史性成就。2016 年,“Pascal”芯片的计算能力仅为19 teraflops,而今天Blackwell的计算能力已经达到了 20000 teraflops。相关文章:全程回顾黄仁勋GTC演讲:Blackwell架构B200芯片登场英伟达扩大与中国车企合作 为比亚迪提供下一代车载芯片英伟达进军机器人领域 发布世界首款人形机器人通用基础模型台积电、新思科技首次采用NVIDIA计算光刻平台:最快加速60倍NVIDIA共享虚拟现实环境技术将应用于苹果Vision Pro黄仁勋GTC演讲全文:最强AI芯片Blackwell问世 推理能力提升30倍 ... PC版: 手机版:

封面图片

黄仁勋宣布英伟达 AI 芯片转向“年更”节奏,同时将带动其他产品迭代加速

黄仁勋宣布英伟达 AI 芯片转向“年更”节奏,同时将带动其他产品迭代加速 为适应业界需求,英伟达 CEO 黄仁勋现宣布该公司从此每年都会设计一代全新的 AI 芯片。“我可以宣布,在 Blackwell 之后,还将会有另一款芯片问世。我们后续将保持一年一次的更新节奏。”

封面图片

英伟达CEO黄仁勋强调中国市场重要性 力求业务最大化

英伟达CEO黄仁勋强调中国市场重要性 力求业务最大化 同时,黄仁勋特别强调了中国市场的重要性,他表示:“我们正全力以赴,力求英伟达的业务在中国实现最大化。为此,我们已针对中国市场推出了L20和H20芯片,确保这些芯片完全符合中国市场的特定需求。”此外,黄仁勋还提到:“我们的芯片中,众多零部件均来自中国生产,这与全球汽车供应链的复杂性相类似。供应链的全球化是一个复杂且难以打破的网络,我们深知这一点。”针对某些媒体引用英伟达最新一代AI芯片Blackwell定价在3万至4万美元的报道,黄仁勋本人进行了澄清。他解释说:“我当时的表述,只是为了让大家对我们产品的定价有个大致的概念,并非提供确切的报价。实际上,由于每个客户的需求和配置系统的不同,价格差异会相当大。英伟达并非单纯销售芯片,我们提供的是整个数据中心解决方案。”昨日,英伟达GPU技术大会(GTC)正式召开。在此次大会上,英伟达推出了面向人工智能模型的新一代Blackwell GPU架构,以及基于此架构的新一代“史上最强AI芯片” GB200。黄仁勋指出:Blackwell并非仅是一款芯片,而是一个平台 。 ... PC版: 手机版:

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人