NVIDIA 推出全球最小的 AI 超级计算机 Project DIGITS

NVIDIA 推出全球最小的 AI 超级计算机 Project DIGITS 搭载全新 GB10 超级芯片的 Project DIGITS,可运行 2000 亿参数模型 GB10 Superchip 是一款基于 NVIDIA Grace Blackwell 架构的系统级芯片(SoC),在 FP4 精度下可提供高达 1 千万亿次/秒的 AI 性能。

相关推荐

封面图片

NVIDIA 全球最细 AI 超级计算机 DGX Spark 现已开放预订

NVIDIA 全球最细 AI 超级计算机 DGX Spark 现已开放预订 NVIDIA 在 2025 年 GTC 大会上推出全球最小的个人 AI 超级电脑 DGX Spark,搭载与联发科合作的 GB10 Grace Blackwell 超级芯片。 这款香槟色设计的产品尺寸仅约一支 iPhone长度,重量1.2公斤,提供1000 AI TOPS的高效能运算,已于大会期间开放预购,售价约为 HK$24,000,预计夏季交付,吸引大量关注。 #英伟达 #吃瓜 #AI #电脑

封面图片

黄仁勋抛出2700W功耗的真核弹 还有240TB显存的AI超级计算机

黄仁勋抛出2700W功耗的真核弹 还有240TB显存的AI超级计算机 Blackwell B200 GPU首次采用了chiplet晶粒封装,包含两颗B100,而B200之间再通过带宽翻倍达1.8TB/s的第五代NVLink 5总线互连,最多可连接576块。B100采用专门定制的台积电4NP工艺制造(H100/RTX 40 4N工艺的增强版),已经达到双倍光刻极限尺寸,彼此通过10TB/s带宽的片间互联带宽,连接成一块统一的B200 GPU。B100集成多达1040亿个晶体管,比上代H100 800亿个增加了足足30%,B200整体就是2080亿个晶体管。核心面积未公布,考虑到工艺极限应该不会比814平方毫米的H100大太多。CUDA核心数量也没说,但肯定会大大超过H100 16896个,不知道能不能突破2万个?每颗B100连接四颗24GB HBM3E显存/内存,等效频率8GHz,位宽4096-bit,带宽达4TB/s。如此一来,B200就有多达192GB HBM3E,总位宽8096-bit,总带宽8TB/s,相比H100分别增加1.4倍、58%、1.4倍。性能方面,B200新增支持FP4 Tensor数据格式,性能达到9PFlops(每秒9千万亿次),INT/FP8、FP16、TF32 Tensor性能分别达到4.5、2.25、1.1PFlops,分别提升1.2倍、1.3倍、1.3倍,但是FP64 Tensor性能反而下降了40%(依赖GB200),FP32、FP64 Vector性能则未公布。Blackwell GPU还支持第二代Transformer引擎,支持全新的微张量缩放,在搭配TensorRT-LLM、NeMo Megatron框架中的先进动态范围管理算法,从而在新型4位浮点AI推理能力下实现算力和模型大小的翻倍。其他还有RAS可靠性专用引擎、安全AI、解压缩引擎等。至于功耗,B100控制在700W,和上代H100完全一致,B200则首次达到了1000W。NVIDIA宣称,Blackwell GPU能够在10万亿参数的大模型上实现AI训练和实时大语言模型推理。GB200 Grace Blackwell是继Grace Hopper之后的新一代超级芯片(Superchip),从单颗GPU+单颗CPU升级为两颗GPU加一颗CPU,其中GPU部分就是B200,CPU部分不变还是Grace,彼此通过900GB/s的带宽实现超低功耗片间互联。在大语言模型推理工作负载方面,GB200超级芯片的性能对比H100提升了多达30倍。不过代价也很大,GB200的功耗最高可达2700W,可以使用分冷,更推荐使用液冷。基于GB200超级芯片,NVIDIA打造了新一代的AI超级计算机“DGX SuperPOD”,配备36块超级芯片,也就是包含36颗Grace CPU、72颗B200 GPU,彼此通过NVLink 5组合在一起,还有多达240TB HBM3E。这台AI超级计算机可以处理万亿参数的大模型,能保证超大规模生成式AI训练和推理工作负载的持续运行,FP4精度下的性能高达11.5EFlops(每秒1150亿亿次)。DGX SuperPOD还具有极强的扩展性,可通过Quantum-X800 InfiniBand网络连接,扩展到数万颗GB200超级芯片,并加入BlueField-3 DPU数据处理单元,而每颗GPU都能获得1.8TB/s的高带宽。第四代可扩展分层聚合和规约协议(SHARP)技术,可提供14.4TFlops的网络计算能力,比上代提升4倍。此外,NVIDIA还发布了第六代通用AI超级计算平台“DGX B200”,包含两颗Intel五代至强处理器、八颗B200 GPU,具备1.4TB HBM3E、64TB/s带宽,FP4精度性能144PFlops(每秒14亿亿次),万亿参数模型实时推理速度提升15倍。DGX B200系统还集成八个NVIDIA ConnectX-7网卡、两个BlueField-3 DPU高性能网络,每个连接带宽高达400Gb/s,可通过Quantum-2 InfiniBand、Spectrum?-X以太网网络平台,扩展支持更高的AI性能。基于Blackwell GPU的产品将在今年晚些时候陆续上市,亚马逊云、戴尔、谷歌、Meta、微软、OpenAI、甲骨文、特斯拉、xAI等都会采纳。亚马逊云、谷歌云、微软Azeure、甲骨文云将是首批提供Blackwell GPU驱动实例的云服务提供商,NVIDIA云合作伙伴计划的中的Applied Digital、CoreWeave、Crusoe、IBM Cloud、Lambda也将提供上述服务。Indosat Ooredoo Hutchinson、Nebius、Nexgen Cloud、甲骨文欧盟主权云、甲骨文美国/英国/澳大利亚政府云、Scaleway、新加坡电信、Northern Data Group旗下的Taiga Cloud、Yotta Data Services旗下的Shakti Cloud、YTL Power International 等主权AI云,也将提供基于Blackwell架构的云服务和基础设施。 ... PC版: 手机版:

封面图片

英国最快的超级计算机 Isambard-AI 正式上线

英国最快的超级计算机 Isambard-AI 正式上线 这台耗资 2.25 亿英镑(约合 2.73 亿美元)的超级计算机还在 Green500 榜单上名列第2,该榜单对超级计算机的能效进行了排名,其能效等级为每瓦特 68.8 gigaflops。Isambard-AI 建立在基于 HPE Cray EX 的系统上,满负荷运行时将包含 5448 个 NVIDIA GH200 超级芯片,可提供 200 petaflops Linpack 和 21 exaflops 的人工智能计算能力。该机器的建设目前处于第一阶段,通过 168 个 GPU 提供 7.4 petaflops 的 Linpack 和 647 petaflops 的 AI 计算能力。剩余的 5280 个 NVIDIA GH200 超级芯片将于今年夏天晚些时候运抵国家计算中心,使 Isambard-AI 达到满负荷运行。该系统还采用了 HPE Slingshot 11 互联技术,使用 Cray Clusterstor E1000 提供近 25PB 的存储空间,并通过 HPE 性能优化数据中心 (POD) 托管在一个自冷却、独立的数据中心内。热量再利用系统将把废热引向附近的建筑物。"随着布里斯托尔大学超级计算机 Isambard-AI 第一阶段的启动,我们见证了英国科学、创新和技术的开创性时刻,"英国人工智能部长乔纳森-贝里(Jonathan Berry)说。"这台世界级的设备将彻底改变英国的研究可能性,我们世界首创的人工智能安全研究所也将成为受益机构之一,利用全球最强大的计算机系统之一来推动他们的重要研究。"他补充说:"Isambard-AI 不仅是世界上速度最快的超级计算机之一,而且还为具有生态意识的计算设定了标准,在效率和可持续性方面处于领先地位。从人工智能安全到医疗保健和气候研究,它的能力无与伦比,标志着英国成为人工智能和负责任创新的全球领导者。"Isambard-AI 最终将与剑桥大学的Dawn 超级计算机集群相连接。该系统是戴尔和英特尔合作两年的成果,已于今年 2 月投入使用。虽然还处于第一阶段,但 Dawn 目前已经提供了 19 petaflops 的 FP64 性能。 ... PC版: 手机版:

封面图片

Inflection AI宣布打造2.2万块H100计算卡的AI超级计算机

Inflection AI宣布打造2.2万块H100计算卡的AI超级计算机 一家名为"Inflection AI"的人工智能创业公司近日宣布,他们计划利用2.2万块NVIDIA H100计算卡打造一台规模宏大的AI超级计算机。这台超级计算机将由近700个机柜组成,每个机柜还将配备四块Intel至强处理器,旨在提供卓越的计算能力。据悉,该系统的功耗预计将达到31兆瓦,相当于每小时消耗3.1万度电。 Inflection AI此次计划打造的AI超级计算机被视为世界顶级之一,而能够轻松获取大量NVIDIA H100计算卡的原因在于,NVIDIA正准备对该公司进行投资。来源 , 来自:雷锋 频道:@kejiqu 群组:@kejiquchat 投稿:@kejiqubot

封面图片

NVIDIA“最强AI芯片”Blackwell B200 GPU令业内惊呼新的摩尔定律诞生

NVIDIA“最强AI芯片”Blackwell B200 GPU令业内惊呼新的摩尔定律诞生 在GTC直播中,黄仁勋左手举着 B200 GPU,右手举着 H100此外,将两个B200 GPU与单个Grace CPU 结合在一起的 GB200,可以为LLM推理工作负载提供30倍的性能,并且显著提高效率。黄仁勋还强调称:“与H100相比,GB200的成本和能耗降低了25倍!关于市场近期颇为关注的能源消耗问题,B200 GPU也交出了最新的答卷。黄仁勋表示,此前训练一个1.8 万亿参数模型,需要8000 个 Hopper GPU 并消耗15 MW电力。但如今,2000 个 Blackwell GPU就可以实现这一目标,耗电量仅为4MW。在拥有1750亿参数的GPT-3大模型基准测试中,GB200的性能是H100的7倍,训练速度是H100的4倍。值得一提的是,B200 GPU的重要进步之一,是采用了第二代Transformer引擎。它通过对每个神经元使用4位(20 petaflops FP4)而不是8位,直接将计算能力、带宽和模型参数规模翻了一倍。而只有当这些大量的GPU连接在一起时,第二个重要区别才会显现,那就是新一代NVLink交换机可以让576个GPU相互通信,双向带宽高达1.8TB/秒。而这就需要英伟达构建一个全新的网络交换芯片,其中包括500亿个晶体管和一些自己的板载计算:拥有3.6 teraflops FP8处理能力。在此之前,仅16个GPU组成的集群,就会耗费60%的时间用于相互通信,只有40%的时间能用于实际计算。一石激起千层浪,“最强AI芯片”的推出让网友纷纷赞叹。其中英伟达高级科学家Jim Fan直呼:Blackwell新王诞生,新的摩尔定律已经应运而生。DGX Grace-Blackwell GB200:单个机架的计算能力超过1 Exaflop。黄仁勋交付给OpenAI的第一台DGX是0.17 Petaflops。GPT-4的1.8T参数可在2000个Blackwell上完成90天的训练。还有网友感叹:1000倍成就达成!Blackwell标志着在短短8年内,NVIDIA AI 芯片的计算能力实现了提升1000倍的历史性成就。2016 年,“Pascal”芯片的计算能力仅为19 teraflops,而今天Blackwell的计算能力已经达到了 20000 teraflops。相关文章:全程回顾黄仁勋GTC演讲:Blackwell架构B200芯片登场英伟达扩大与中国车企合作 为比亚迪提供下一代车载芯片英伟达进军机器人领域 发布世界首款人形机器人通用基础模型台积电、新思科技首次采用NVIDIA计算光刻平台:最快加速60倍NVIDIA共享虚拟现实环境技术将应用于苹果Vision Pro黄仁勋GTC演讲全文:最强AI芯片Blackwell问世 推理能力提升30倍 ... PC版: 手机版:

封面图片

戴尔、超微为 xAI 超级计算机提供服务器机架

戴尔、超微为 xAI 超级计算机提供服务器机架 总部位于旧金山的超微证实了与 xAI 的合作,该公司以与 Nvidia 等芯片公司关系密切及其液冷技术而闻名。戴尔首席执行官迈克尔·戴尔也在 X 上的另一篇帖子中表示,该公司正在与人工智能巨头 Nvidia 合作建立一个“AI 工厂”,为 xAI 的下一个版本的聊天机器人 Grok 提供动力。据5 月份报道,马斯克告诉投资者,他的人工智能初创公司 xAI 计划建造一台超级计算机,为其下一代人工智能聊天机器人 Grok 提供动力。训练 xAI 的 Grok 等人工智能模型需要数万块芯片,而这些芯片供不应求。今年早些时候,马斯克表示,训练 Grok 2 模型需要大约 20000 个 Nvidia H100 图形处理单元 (GPU),并补充说,Grok 3 模型及以后的模型将需要 100000 个 Nvidia H100 芯片。据《Information》报道,马斯克表示,他希望在 2025 年秋季之前让这台计划中的超级计算机投入运行。马斯克去年创立了 xAI,作为微软支持的 OpenAI 和 Alphabet 旗下谷歌的挑战者。马斯克也是 OpenAI 的联合创始人。 ... PC版: 手机版:

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人