单卡功耗可达1400W 黄仁勋:下代GPU服务器必须水冷

单卡功耗可达1400W 黄仁勋:下代GPU服务器必须水冷 戴尔此前的一次会议中确认,NVIDIA明年还会推出升级版B200 GPU,最高功耗可达1000W,甚至有说法称会有恐怖的1400W!NVIDIA目前的主力AI GPU H100和升级版H200最大功耗为700W,核心面积814平方毫米,均只需风冷。AMD MI300X则需要750W,但是面积也更大一些达到了1017平方毫米。现如今,服务器和数据中心使用浸没式液冷散热已经稀松平常,但也有很多专家对这种发展途径吃反对态度。Moor Insights & Strategy的创始人、CEO兼首席分析师Patrick Moorhead就明确提出,为了提高性能,并控制合理的功耗、发热,我们已经穷尽了手段,但接下来该怎么办?上液氮吗?是时候重新思考了。 ... PC版: 手机版:

相关推荐

封面图片

NVIDIA B200 GPU加速器明年到来 功耗高达1000W

NVIDIA B200 GPU加速器明年到来 功耗高达1000W B100之后,还有更强大的升级版B200,一如现在H100、H200的关系。戴尔首席运营官兼副董事长在最近的一次会议中确认了B200的存在,发布时间在明年。他没有披露更具体的规格,比如升级之处,但声称戴尔有能力搞定单颗GPU 1000W的功耗,甚至不需要液冷,这无疑是在暗示B200的功耗将大幅提高。相比之下,H100 SMX版本的峰值功耗为700W。NVIDIA GTC 2024图形技术大会将于3月18-21日举行,必然会披露新一代GPU加速器的情况,甚至有可能正式宣布。 ... PC版: 手机版:

封面图片

黄仁勋抛出2700W功耗的真核弹 还有240TB显存的AI超级计算机

黄仁勋抛出2700W功耗的真核弹 还有240TB显存的AI超级计算机 Blackwell B200 GPU首次采用了chiplet晶粒封装,包含两颗B100,而B200之间再通过带宽翻倍达1.8TB/s的第五代NVLink 5总线互连,最多可连接576块。B100采用专门定制的台积电4NP工艺制造(H100/RTX 40 4N工艺的增强版),已经达到双倍光刻极限尺寸,彼此通过10TB/s带宽的片间互联带宽,连接成一块统一的B200 GPU。B100集成多达1040亿个晶体管,比上代H100 800亿个增加了足足30%,B200整体就是2080亿个晶体管。核心面积未公布,考虑到工艺极限应该不会比814平方毫米的H100大太多。CUDA核心数量也没说,但肯定会大大超过H100 16896个,不知道能不能突破2万个?每颗B100连接四颗24GB HBM3E显存/内存,等效频率8GHz,位宽4096-bit,带宽达4TB/s。如此一来,B200就有多达192GB HBM3E,总位宽8096-bit,总带宽8TB/s,相比H100分别增加1.4倍、58%、1.4倍。性能方面,B200新增支持FP4 Tensor数据格式,性能达到9PFlops(每秒9千万亿次),INT/FP8、FP16、TF32 Tensor性能分别达到4.5、2.25、1.1PFlops,分别提升1.2倍、1.3倍、1.3倍,但是FP64 Tensor性能反而下降了40%(依赖GB200),FP32、FP64 Vector性能则未公布。Blackwell GPU还支持第二代Transformer引擎,支持全新的微张量缩放,在搭配TensorRT-LLM、NeMo Megatron框架中的先进动态范围管理算法,从而在新型4位浮点AI推理能力下实现算力和模型大小的翻倍。其他还有RAS可靠性专用引擎、安全AI、解压缩引擎等。至于功耗,B100控制在700W,和上代H100完全一致,B200则首次达到了1000W。NVIDIA宣称,Blackwell GPU能够在10万亿参数的大模型上实现AI训练和实时大语言模型推理。GB200 Grace Blackwell是继Grace Hopper之后的新一代超级芯片(Superchip),从单颗GPU+单颗CPU升级为两颗GPU加一颗CPU,其中GPU部分就是B200,CPU部分不变还是Grace,彼此通过900GB/s的带宽实现超低功耗片间互联。在大语言模型推理工作负载方面,GB200超级芯片的性能对比H100提升了多达30倍。不过代价也很大,GB200的功耗最高可达2700W,可以使用分冷,更推荐使用液冷。基于GB200超级芯片,NVIDIA打造了新一代的AI超级计算机“DGX SuperPOD”,配备36块超级芯片,也就是包含36颗Grace CPU、72颗B200 GPU,彼此通过NVLink 5组合在一起,还有多达240TB HBM3E。这台AI超级计算机可以处理万亿参数的大模型,能保证超大规模生成式AI训练和推理工作负载的持续运行,FP4精度下的性能高达11.5EFlops(每秒1150亿亿次)。DGX SuperPOD还具有极强的扩展性,可通过Quantum-X800 InfiniBand网络连接,扩展到数万颗GB200超级芯片,并加入BlueField-3 DPU数据处理单元,而每颗GPU都能获得1.8TB/s的高带宽。第四代可扩展分层聚合和规约协议(SHARP)技术,可提供14.4TFlops的网络计算能力,比上代提升4倍。此外,NVIDIA还发布了第六代通用AI超级计算平台“DGX B200”,包含两颗Intel五代至强处理器、八颗B200 GPU,具备1.4TB HBM3E、64TB/s带宽,FP4精度性能144PFlops(每秒14亿亿次),万亿参数模型实时推理速度提升15倍。DGX B200系统还集成八个NVIDIA ConnectX-7网卡、两个BlueField-3 DPU高性能网络,每个连接带宽高达400Gb/s,可通过Quantum-2 InfiniBand、Spectrum?-X以太网网络平台,扩展支持更高的AI性能。基于Blackwell GPU的产品将在今年晚些时候陆续上市,亚马逊云、戴尔、谷歌、Meta、微软、OpenAI、甲骨文、特斯拉、xAI等都会采纳。亚马逊云、谷歌云、微软Azeure、甲骨文云将是首批提供Blackwell GPU驱动实例的云服务提供商,NVIDIA云合作伙伴计划的中的Applied Digital、CoreWeave、Crusoe、IBM Cloud、Lambda也将提供上述服务。Indosat Ooredoo Hutchinson、Nebius、Nexgen Cloud、甲骨文欧盟主权云、甲骨文美国/英国/澳大利亚政府云、Scaleway、新加坡电信、Northern Data Group旗下的Taiga Cloud、Yotta Data Services旗下的Shakti Cloud、YTL Power International 等主权AI云,也将提供基于Blackwell架构的云服务和基础设施。 ... PC版: 手机版:

封面图片

AMD Zen5旗舰笔记本APU现身:功耗可达120W、GPU被传媲美4060

AMD Zen5旗舰笔记本APU现身:功耗可达120W、GPU被传媲美4060 有趣的是,它会自带内存,容量32GB、64GB,应该是直接焊接在主板上。Strix Halo将采用chiplet整合封装设计,其中CPU部分预计有8个、12个、16个等至少三种配置,还有最多16MB二级缓存、32MB三级缓存。GPU升级到RDNA3+架构,最多40个计算单元,要知道RX 7600 XT也不过是32单元,有厂商透露其性能最高有望媲美移动版RTX 4060,甚至还有的说能达到移动版RTX 4070!内存支持高达LPDDR5X-8000,还有特别的32MB MALL缓存,类似现在显卡里的无限缓存,双双为GPU加速。NPU算力也进一步提高至最多60TOPS。 ... PC版: 手机版:

封面图片

RTX 5090/5080肩并肩走来 测试功耗高达600W

RTX 5090/5080肩并肩走来 测试功耗高达600W 这一幕似曾相识,2020年的RTX 30系列就是这么做的,RTX 3080首先于9月16日登场,RTX 3090随后在9月24日跟进。同时,NVIDIA已经开始测试RTX 50 FE公版的散热器,共有多达4个方案,散热能力最低250W,最高达600W。当然,显卡实际功耗并不一定会这么高,因为这种设计都会从宽考量,但也暗示RTX 50系列依然不会很清凉。RTX 4090测试期间,NVIDIA就设计过三风扇、四插槽的巨型散热器,最高散热能力达恐怖的800W,而最终可解锁的功耗上限也可达600W。 ... PC版: 手机版:

封面图片

Intel下代至强W处理器曝光:核心最多60个、功耗却有350W

Intel下代至强W处理器曝光:核心最多60个、功耗却有350W 至强W-3400、至强W-2400系列是2023年2月份刚发布的,来源于四代可扩展至强Sapphire Rapids,最多56核心112线程、105MB三级缓存、4TB DDR5-4800八通道内存,112条PCIe 5.0通道。至强W-3500、至强W-2500系列并非基于去年底新发布的五代可扩展至强Emerald Rapids,而是仍旧来源于Sapphire Rapids,只是提升了规格当然了,Emerald Rapids也只是个升级版,并非全新。至强W-3500系列已知七款型号,对位升级,顶级旗舰至强W9-3595X,来到了60核心120线程、112MB三级缓存,对比现有至强W9-3495X增加了4个核心、7MB缓存,热设计功耗维持在350W,但是最高频率从4.8GHz降到了4.6GHz。往下还有44/32/28/24/20/16核心版本,对位普遍增加了4个,除了44核心是增加了8个。热设计功耗之前最低270W,现在来到了290W。至强W-2500系列是八款型号,同样对位升级,都增加了2个核心,来到26/22/18/14/12/10/8核心,频率也普遍有所提升,热设计功耗则从110-225W增加到175-250W。最高端是至强W7-2595X,26核心52线程,2.8-4.8GHz,三级缓存48.75MB。 ... PC版: 手机版:

封面图片

NVIDIA官宣全新Rubin GPU、Vera CPU 3nm工艺配下代HBM4内存

NVIDIA官宣全新Rubin GPU、Vera CPU 3nm工艺配下代HBM4内存 NVIDIA现有的高性能GPU架构代号“Blackwell”,已经投产,相关产品今年陆续上市,包括用于HPC/AI领域的B200/GB200、用于游戏的RTX 50系列。2025年将看到“Blackwell Ultra”,自然是升级版本,但具体情况没有说。2026年就是全新的下一代“Rubin”,命名源于美国女天文学家Vera Rubin(薇拉·鲁宾),搭配下一代HBM4高带宽内存,8堆栈。根据曝料,Rubin架构首款产品为R100,采用台积电3nm EUV制造工艺,四重曝光技术,CoWoS-L封装,预计2025年第四季度投产。2027年则是升级版的“Rubin Ultra”,HBM4内存升级为12堆栈,容量更大,性能更高。CPU方面下代架构代号“Vera”没错,用一个名字同时覆盖GPU、CPU,真正二合一。Vera CPU、Rubin GPU组成新一代超级芯片也在规划之中,将采用第六代NVLink互连总线,带宽高达3.6TB/s。此外,NVIDIA还有新一代数据中心网卡CX9 SuperNIC,最高带宽可达1600Gbps,也就是160万兆,并搭配新的InfiniBand/以太网交换机X1600。 ... PC版: 手机版:

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人