英伟达发布用于AI的"世界上最强大芯片"Blackwell B200 GPU

英伟达发布用于AI的"世界上最强大芯片"Blackwell B200 GPU NVIDIA 首席执行官黄仁勋在 GTC 现场直播中举起他的新 GPU(左边),右边是 H100。NVIDIA 表示,新的 B200 GPU 拥有 2080 亿个晶体管,可提供高达 20petaflops 的 FP4 算力,而 GB200 将两个 GPU 和一个 Grace CPU 结合在一起,可为 LLM 推理工作负载提供 30 倍的性能,同时还可能大大提高效率。NVIDIA 表示,与 H100 相比,它的成本和能耗"最多可降低 25 倍"。NVIDIA 声称,训练一个 1.8 万亿个参数的模型以前需要 8000 个 Hopper GPU 和 15 兆瓦的电力。如今,NVIDIA 首席执行官表示,2000 个 Blackwell GPU 就能完成这项工作,耗电量仅为 4 兆瓦。NVIDIA 表示,在具有 1750 亿个参数的 GPT-3 LLM 基准测试中,GB200 的性能是 H100 的 7 倍,而 NVIDIA 称其训练速度是 H100 的 4 倍。这就是 GB200 的样子。两个 GPU、一个 CPU、一块电路板NVIDIA 介绍说,其中一项关键改进是采用了第二代变压器引擎,通过为每个神经元使用四个比特而不是八个比特,将计算能力、带宽和模型大小提高了一倍(前面提到的 FP4 的 20 petaflops)。第二个关键区别只有在连接大量 GPU 时才会出现:新一代 NVLink 交换机可让 576 个 GPU 相互连接,双向带宽达到每秒 1.8 TB。这就要求 NVIDIA 打造一个全新的网络交换芯片,其中包含 500 亿个晶体管和一些自己的板载计算:NVIDIA 表示,该芯片拥有 3.6 teraflops 的 FP8 处理能力。NVIDIA 表示将通过 Blackwell 增加 FP4 和 FP6NVIDIA 表示,在此之前,由 16 个 GPU 组成的集群有 60% 的时间用于相互通信,只有 40% 的时间用于实际计算。当然,NVIDIA 还指望企业大量购买这些 GPU,并将它们包装成更大的设计,比如 GB200 NVL72,它将 36 个 CPU 和 72 个 GPU 集成到一个液冷机架中,可实现总计 720 petaflops 的 AI 训练性能或 1440 petaflops(又称 1.4exaflops)的推理性能。它内部有近两英里长的电缆,共有 5000 条独立电缆。GB200 NVL72机架上的每个托盘包含两个 GB200 芯片或两个 NVLink 交换机,每个机架有 18 个前者和 9 个后者。NVIDIA 称,其中一个机架总共可支持 27 万亿个参数模型。据传,GPT-4 的参数模型约为 1.7 万亿。该公司表示,亚马逊、Google、微软和甲骨文都已计划在其云服务产品中提供 NVL72 机架,但不清楚它们将购买多少。当然,NVIDIA 也乐于为公司提供其他解决方案。下面是用于 DGX GB200 的 DGX Superpod,它将八个系统合而为一,总共拥有 288 个 CPU、576 个 GPU、240TB 内存和 11.5 exaflops 的 FP4 计算能力。NVIDIA 称,其系统可扩展至数万 GB200 超级芯片,并通过其新型 Quantum-X800 InfiniBand(最多 144 个连接)或 Spectrum-X800 以太网(最多 64 个连接)与 800Gbps 网络连接在一起。我们预计今天不会听到任何关于新游戏 GPU 的消息,因为这一消息是在 NVIDIA 的 GPU 技术大会上发布的,而该大会通常几乎完全专注于 GPU 计算和人工智能,而不是游戏。不过,Blackwell GPU 架构很可能也会为未来的 RTX 50 系列桌面显卡提供算力。 ... PC版: 手机版:

相关推荐

封面图片

英伟达发布用于人工智能的“世界上最强大芯片”Blackwell B200 GPU

英伟达发布用于人工智能的“世界上最强大芯片”Blackwell B200 GPU 英伟达的 H100 AI 芯片使其成为价值数万亿美元的公司,其价值可能超过 Alphabet 和亚马逊,而竞争对手一直在奋力追赶。但也许英伟达即将通过新的 Blackwell B200 GPU 和 GB200“超级芯片”扩大其领先地位。该公司在加州圣何塞举行的 GTC 大会上表示,新的 B200 GPU 拥有 2080 亿个晶体管,可提供高达 20petaflops 的 FP4 算力,而 GB200 将两个 GPU 和单个 Grace CPU 结合在一起,可为 LLM 推理工作负载提供30倍的性能,同时还可能大大提高效率。英伟达表示,在具有 1750 亿个参数的 GPT-3 LLM 基准测试中,GB200 的性能是 H100 的7倍,而英伟达称其训练速度是 H100 的4倍。

封面图片

NVIDIA“最强AI芯片”Blackwell B200 GPU令业内惊呼新的摩尔定律诞生

NVIDIA“最强AI芯片”Blackwell B200 GPU令业内惊呼新的摩尔定律诞生 在GTC直播中,黄仁勋左手举着 B200 GPU,右手举着 H100此外,将两个B200 GPU与单个Grace CPU 结合在一起的 GB200,可以为LLM推理工作负载提供30倍的性能,并且显著提高效率。黄仁勋还强调称:“与H100相比,GB200的成本和能耗降低了25倍!关于市场近期颇为关注的能源消耗问题,B200 GPU也交出了最新的答卷。黄仁勋表示,此前训练一个1.8 万亿参数模型,需要8000 个 Hopper GPU 并消耗15 MW电力。但如今,2000 个 Blackwell GPU就可以实现这一目标,耗电量仅为4MW。在拥有1750亿参数的GPT-3大模型基准测试中,GB200的性能是H100的7倍,训练速度是H100的4倍。值得一提的是,B200 GPU的重要进步之一,是采用了第二代Transformer引擎。它通过对每个神经元使用4位(20 petaflops FP4)而不是8位,直接将计算能力、带宽和模型参数规模翻了一倍。而只有当这些大量的GPU连接在一起时,第二个重要区别才会显现,那就是新一代NVLink交换机可以让576个GPU相互通信,双向带宽高达1.8TB/秒。而这就需要英伟达构建一个全新的网络交换芯片,其中包括500亿个晶体管和一些自己的板载计算:拥有3.6 teraflops FP8处理能力。在此之前,仅16个GPU组成的集群,就会耗费60%的时间用于相互通信,只有40%的时间能用于实际计算。一石激起千层浪,“最强AI芯片”的推出让网友纷纷赞叹。其中英伟达高级科学家Jim Fan直呼:Blackwell新王诞生,新的摩尔定律已经应运而生。DGX Grace-Blackwell GB200:单个机架的计算能力超过1 Exaflop。黄仁勋交付给OpenAI的第一台DGX是0.17 Petaflops。GPT-4的1.8T参数可在2000个Blackwell上完成90天的训练。还有网友感叹:1000倍成就达成!Blackwell标志着在短短8年内,NVIDIA AI 芯片的计算能力实现了提升1000倍的历史性成就。2016 年,“Pascal”芯片的计算能力仅为19 teraflops,而今天Blackwell的计算能力已经达到了 20000 teraflops。相关文章:全程回顾黄仁勋GTC演讲:Blackwell架构B200芯片登场英伟达扩大与中国车企合作 为比亚迪提供下一代车载芯片英伟达进军机器人领域 发布世界首款人形机器人通用基础模型台积电、新思科技首次采用NVIDIA计算光刻平台:最快加速60倍NVIDIA共享虚拟现实环境技术将应用于苹果Vision Pro黄仁勋GTC演讲全文:最强AI芯片Blackwell问世 推理能力提升30倍 ... PC版: 手机版:

封面图片

GTC 2024硬件一览:史上最强AI芯片GB200发布 高达2080亿晶体管

GTC 2024硬件一览:史上最强AI芯片GB200发布 高达2080亿晶体管 今年的GTC峰会主题完全围绕AI展开,2个小时的时间,老黄又一次带来了AI的变革时刻。当然除了老黄的开幕演讲外,后面还有900多场鼓舞人心的会议在等着你。同时此次GTC大会还吸引了超过200家展商,汇聚了数千名不同行业领域的从业人员一同参与。丰富多彩的技术分享、越见非凡的创新技术,称它是AI的盛会都不为过。想必你也好奇老黄究竟在GTC上带来了什么惊喜吧,别着急,本篇带你一睹GTC峰会上的那些硬件产品。见证AI的变革时刻峰会伊始,我们熟悉的皮衣刀客准时出场。一上来就直奔今天的主题AI,并表示“加速式计算机的生产力已经到达了一个转折点,生成式AI正在加速发展,而我们需要以一种全新的方式进行计算,才能够进一步提高计算机生产力。”并且还贴心的展示了其自己亲手画出的关于计算机生产力的演变流程,最后一项正是今天的重点!改变形态的Blackwell GPU没错,老黄在GTC宣布推出新一代GPU Blackwell。这里先介绍一下Blackwell架构,此前NVIDIA推出的显卡一般是两种架构,其中游戏显卡例如我们熟悉的RTX 40系则是Ada Lovelace架构,而面向AI、大数据等应用的专业级显卡则采用Hopper 架构。而老黄在大会上则表示“Blackwell不是一个芯片,它是一个平台的名字。”意思是Blackwell架构将同时用于以上两种类型的产品。借助这一架构,NVIDIA将推出涵盖多个应用领域的显卡,即RTX 50系显卡也会是这个架构。并且从老黄手上的芯片可以看出,新的Blackwell GPU的体积明显比上代Hopper GPU要更大一些。至于这个架构名字的由来,则要追溯到美国科学院首位黑人院士、加州大学伯克利分校首位黑人终身教授戴维·布莱克维尔(David Blackwell),它是著名的数学家、统计学家,不过很可惜的是这位教授在2010年因病去世。恐怖的2080亿晶体管言归正传,让我们继续关注此次Blackwell GPU。“我们需要更大的GPU,如果不能更大,就把更多GPU组合在一起,变成更大的虚拟GPU。”老黄在GTC上也确实这么干了。Blackwell架构的首个GPU为B200,由于目前4nm制程工艺已经接近极限,所以NVIDIA也玩起了“拼图”,B200采用台积电的 4 纳米(4NP)工艺蚀刻而成,由两个芯片通过NVLink 5.0组合在一起,以10TB每秒的满血带宽互联,总的晶体管数量更是达到了恐怖的2080 亿。第二代Transformer引擎除了芯片形态的变化外,Blackwell还有5大创新,首先就是第二代Transformer引擎。它支持FP4和FP6精度计算。得益于此,Blackwell GPU的FP4与FP6分别是Hopper的5倍与2.5倍。第五代NVLink互连第五代NVLink互连则是将多个Blackwell GPU组合起来的重要工具。它与传统的PCIe交换机不同,NVLink带宽有限,可以在服务器内的GPU之间实现高速直接互连。目前第五代NVLink可每个GPU 提供了1.8TB/s双向吞吐量,确保多达576个GPU之间的无缝高速通信。RAS可靠性引擎这个RAS可靠性引擎则是基于AI实现,Blackwell 透过专用的可靠性、可用性和可维护性 (RAS) 引擎,可增加智慧复原能力,及早辨认出可能发生的潜在故障,尽可能缩短停机时间。Secure AI安全AI功能Secure AI负责提供机密运算功能,同时Blackwell也是业界第一款支持EE-I/O的GPU,它可以在不影响性能的前提下,维护你的数据安全,这对于金融、医疗以及AI方面有极大作用。专用解压缩引擎最后一项创新技术则是关于解压缩层面,资料分析和资料库工作流程此前更多是仰赖CPU 进行运算。如果放到GPU中进行则可大幅提升端对端分析的效能,加速创造价值,同时降低成本。Blackwell配备了专用的解压缩引擎,使用过程中可以配合内置的Grace CPU实现每秒900 GB的双向频宽,并且还能兼顾最新的压缩格式 (如 LZ4、Snappy和Deflate等)。超级核弹GB200而两个B200 GPU与Grace CPU结合就成为今天“火热”的GB200超级芯片。这款超级芯片的性能更加惊人,你以为H100已经很快了?不!GB200更快,过去,在90天内训练一个1.8万亿参数的MoE架构GPT模型,需要8000个Hopper架构GPU。现在,你只要2000个Blackwell GPU就可以完成。官方称,在标准的1750亿参数GPT-3基准测试中,GB200的性能是H100的7倍,提供的训练算力是H100的4倍。不止是性能更快更强,Blackwell GPU还相当节能。还是同样的操作,90天内训练一个1.8万亿参数的MoE架构GPT模型,8000个Hopper GPU要耗费15兆瓦功耗,如今的Blackwell GPU仅需1/4的能耗就能实现。如果你需要更强劲的GPU,NVIDIA也面向有大型需求的企业提供成品服务,提供完整的服务器。例如:GB200 NVL72,它将36个CPU和72个GPU插入一个液冷机架中,总共可实现720 petaflops的AI训练性能或1,440 petaflops(1.4 exaflops)的推理。与相同数量的72个H100相比,GB200 NVL72的性能绝对是逆天的存在,大模型推理性能可以提升30倍,并且成本和能耗只有前者的1/25。当然,最炸裂的要数适用于 DGX GB200 的 DGX Superpod,它将八个GB200 NVL72合二为一,总共有288个CPU、576个GPU、240TB内存和11.5 exaflops的FP4计算能力。老黄更是在GTC上直言“DGX Superpod就是AI的革命工厂!”结语以上就是本次GTC 2024的硬件相关报道,可能有玩家会说,怎么没有游戏显卡?其实按照过往惯例,NVIDIA并没有在GTC上推出消费级显卡的习惯。不过本次NVIDIA在GTC 2024上推出的B100显卡所使用的架构是Blackwell,上面我们也讲过了,这是一个跨越数据中心与消费级产品的架构,这也就意味着我们熟悉的GeForce显卡应该也是同一架构的产品,不出意外的话,下半年我们就有望看到心心念念的RTX 50系显卡了! ... PC版: 手机版:

封面图片

英伟达发布下一代AI计算芯片 HGX H200 GPU

英伟达发布下一代AI计算芯片 HGX H200 GPU NVIDIA 今天宣布推出 NVIDIA HGX™ H200,为全球领先的 AI 计算平台带来强大动力。该平台基于 NVIDIA Hopper™ 架构,配备 NVIDIA H200 Tensor Core GPU 和高级内存,可处理生成 AI 和高性能计算工作负载的海量数据。 NVIDIA H200 是首款提供 HBM3e 的 GPU,HBM3e 是更快、更大的内存,可加速生成式 AI 和大型语言模型,同时推进 HPC 工作负载的科学计算。借助 HBM3e,NVIDIA H200 以每秒 4.8 TB 的速度提供 141GB 内存,与前一代 NVIDIA A100 相比,容量几乎翻倍,带宽增加 2.4 倍。 全球领先的服务器制造商和云服务提供商采用 H200 的系统预计将于 2024 年第二季度开始发货。

封面图片

NVIDIA Blackwell GPU预计售价3.5万美元 AI服务器售价高达300万美元

NVIDIA Blackwell GPU预计售价3.5万美元 AI服务器售价高达300万美元 NVIDIA 的 Blackwell 产品包括 GPU、超级芯片平台和服务器,是每一家热衷于人工智能的大型科技公司所梦寐以求的。来自汇丰银行的分析师披露了即将推出的组件的预期定价,英伟达的 Blackwell AI 服务器机架这次的价格不菲,将超过 300 万美元大关,B100 GPU 等 AI 加速器单卖的标价也很高。这一消息来自《巴伦周刊》(Barron's)的资深撰稿人@firstadopter引用了汇丰银行(HSBC)对英伟达(NVIDIA)Blackwell产品的分析。从人工智能服务器开始,英伟达 GB200 NVL36 服务器机架的单台售价预计为 180 万美元,而更高级的 NVL72 对应产品的售价则高达 300 万美元。我们在之前的报道中也透露了这一具体数额,因此实际数字可能不会太远。关于单卖的人工智能加速卡,汇丰银行表示,单个 B100 人工智能 GPU 的售价预计约为 3 万至 3.5 万美元,而GB200 超级芯片的单价约为 6 万至 7 万美元。这些超级芯片包含两个 GB100 GPU 和一个 Grace Hopper 芯片,以及一个大型系统内存池(HBM3E)。这些估价也与詹森本人透露的价格基本一致。分析师的估算可能没有考虑实时市场情况、采购量和许多其他因素。因此,根据买家类型和订单的严重程度,实际数字可能会更低甚至更高。现在,如果我们从代际上进行比较,Blackwell 价格肯定要比 Hopper 高。如果 Blackwell AI GPU 架构能够复制 Hopper GPU 的成功应用,那么英伟达的市场份额和主导地位又将会有质的飞跃。谁知道呢,也许它将超越苹果和微软等公司,成为全球最有价值的公司之一。到目前为止,我们已经看到Meta 等公司下达了 Blackwell 订单,微软和 OpenAI 也在其中,而这仅仅是首批订单。NVIDIA公司首席执行官黄仁勋(Jensen Huang)早早识别出人工智能热潮的大手笔确实收到了成效。 ... PC版: 手机版:

封面图片

超微获得NVIDIA Blackwell AI服务器巨额订单 占总供应量的25%

超微获得NVIDIA Blackwell AI服务器巨额订单 占总供应量的25% 在人工智能的热潮中,SMCI(超微计算机公司)在相当长的一段时间里都是市场的头条新闻。该公司不仅股价表现优异,同比增长 182%,而且还成功地与英伟达(NVIDIA)建立了合作关系,成为市场的焦点。SMCI 专注于专为人工智能工作负载设计的高性能服务器和存储系统,在过去几个季度里,订单大量涌入。现在,该公司正寻求将其业务扩展到更先进的NVIDIA Blackwell AI GPU 架构,因为有报道称超微计算机公司已经收到了以 Blackwell 为核心的 AI 服务器机架的巨额订单。台湾《经济日报》报道称,超微计算机公司(SMCI)准备出货 25% 的英伟达(NVIDIA)基于 GB200 的 Blackwell AI 服务器,总量将达到 10000 台以上。这一次,NVIDIA似乎赋予了 SMCI 更多的责任,如果进展顺利,最终将转化为巨大的经济效益。这些系统包括:NVIDIA HGX B100 8-GPU 和 HGX B200 8-GPU 系统包含 10 个 GPU 的 5U/4U PCIe GPU 系统SuperBlade 在 8U 机柜中最多可配备 20 个 B100 GPU,在 6U 机柜中最多可配备 10 个 B100 GPU2U Hyper 最多可配备 3 个 B100 GPU配备最多 4 个 B100 GPU 的 Supermicro 2U x86 MGX 系统为了与富士康和广达等巨头竞争,SMCI 决定积极拓展供应链,将 Argosy Research 和 Auras Technology 等公司纳入其中。自今年年初以来,该公司已经积累了NVIDIA公司的Blackwell GB200 AI GPU,以确保供应链流程顺畅,最终保证在竞争中占据优势。此外,超微计算机公司已经在水冷要件方面进行了投资,据说这对较新的 Blackwell AI 服务器至关重要。以下是超微服务器阵容的部分特点:超微公司的NVIDIA HGX B200 8GPU 风冷和液冷系统可实现最高的生成式人工智能训练性能。该系统采用 8 个英伟达 Blackwell GPU,通过第五代 NVLink 与 1.5TB 高带宽内存池(速度达 60TB/s)连接,以加快人工智能训练工作负载的速度。超微最畅销的人工智能训练系统配备NVIDIA HGX H100/H200 8-GPU 的 4U/8U 系统,将支持英伟达即将推出的 HGX B100 8-GPU。超微机架级解决方案采用 GB200 Superchip 系统作为服务器节点,每个节点配备 2 个 Grace CPU 和 4 个 NVIDIA Blackwell GPU。超微的直接到芯片液冷技术最大限度地提高了密度,在一个 44U ORV3 机架上可安装 72 个 GB200 192GB GPU(每个 GPU 的 TDP 为 1200W)。由此看来,SMCI 希望这次以更积极的方式回归,通过与NVIDIA的密切关系,只要他们能保持供应链和产品质量,就可以继续保持现有的市场地位。 ... PC版: 手机版:

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人