单卡功耗可达1400W 黄仁勋：下代GPU服务器必须水冷

单卡功耗可达1400W 黄仁勋：下代GPU服务器必须水冷戴尔此前的一次会议中确认，NVIDIA明年还会推出升级版B200 GPU，最高功耗可达1000W，甚至有说法称会有恐怖的1400W！NVIDIA目前的主力AI GPU H100和升级版H200最大功耗为700W，核心面积814平方毫米，均只需风冷。AMD MI300X则需要750W，但是面积也更大一些达到了1017平方毫米。现如今，服务器和数据中心使用浸没式液冷散热已经稀松平常，但也有很多专家对这种发展途径吃反对态度。Moor Insights & Strategy的创始人、CEO兼首席分析师Patrick Moorhead就明确提出，为了提高性能，并控制合理的功耗、发热，我们已经穷尽了手段，但接下来该怎么办？上液氮吗？是时候重新思考了。 ... PC版：手机版：

在Telegram中查看

相关推荐

NVIDIA B200 GPU加速器明年到来功耗高达1000W

NVIDIA B200 GPU加速器明年到来功耗高达1000W B100之后，还有更强大的升级版B200，一如现在H100、H200的关系。戴尔首席运营官兼副董事长在最近的一次会议中确认了B200的存在，发布时间在明年。他没有披露更具体的规格，比如升级之处，但声称戴尔有能力搞定单颗GPU 1000W的功耗，甚至不需要液冷，这无疑是在暗示B200的功耗将大幅提高。相比之下，H100 SMX版本的峰值功耗为700W。NVIDIA GTC 2024图形技术大会将于3月18-21日举行，必然会披露新一代GPU加速器的情况，甚至有可能正式宣布。 ... PC版：手机版：

黄仁勋抛出2700W功耗的真核弹还有240TB显存的AI超级计算机

黄仁勋抛出2700W功耗的真核弹还有240TB显存的AI超级计算机 Blackwell B200 GPU首次采用了chiplet晶粒封装，包含两颗B100，而B200之间再通过带宽翻倍达1.8TB/s的第五代NVLink 5总线互连，最多可连接576块。B100采用专门定制的台积电4NP工艺制造(H100/RTX 40 4N工艺的增强版)，已经达到双倍光刻极限尺寸，彼此通过10TB/s带宽的片间互联带宽，连接成一块统一的B200 GPU。B100集成多达1040亿个晶体管，比上代H100 800亿个增加了足足30％，B200整体就是2080亿个晶体管。核心面积未公布，考虑到工艺极限应该不会比814平方毫米的H100大太多。CUDA核心数量也没说，但肯定会大大超过H100 16896个，不知道能不能突破2万个？每颗B100连接四颗24GB HBM3E显存/内存，等效频率8GHz，位宽4096-bit，带宽达4TB/s。如此一来，B200就有多达192GB HBM3E，总位宽8096-bit，总带宽8TB/s，相比H100分别增加1.4倍、58％、1.4倍。性能方面，B200新增支持FP4 Tensor数据格式，性能达到9PFlops(每秒9千万亿次)，INT/FP8、FP16、TF32 Tensor性能分别达到4.5、2.25、1.1PFlops，分别提升1.2倍、1.3倍、1.3倍，但是FP64 Tensor性能反而下降了40％(依赖GB200)，FP32、FP64 Vector性能则未公布。Blackwell GPU还支持第二代Transformer引擎，支持全新的微张量缩放，在搭配TensorRT-LLM、NeMo Megatron框架中的先进动态范围管理算法，从而在新型4位浮点AI推理能力下实现算力和模型大小的翻倍。其他还有RAS可靠性专用引擎、安全AI、解压缩引擎等。至于功耗，B100控制在700W，和上代H100完全一致，B200则首次达到了1000W。NVIDIA宣称，Blackwell GPU能够在10万亿参数的大模型上实现AI训练和实时大语言模型推理。GB200 Grace Blackwell是继Grace Hopper之后的新一代超级芯片(Superchip)，从单颗GPU＋单颗CPU升级为两颗GPU加一颗CPU，其中GPU部分就是B200，CPU部分不变还是Grace，彼此通过900GB/s的带宽实现超低功耗片间互联。在大语言模型推理工作负载方面，GB200超级芯片的性能对比H100提升了多达30倍。不过代价也很大，GB200的功耗最高可达2700W，可以使用分冷，更推荐使用液冷。基于GB200超级芯片，NVIDIA打造了新一代的AI超级计算机“DGX SuperPOD”，配备36块超级芯片，也就是包含36颗Grace CPU、72颗B200 GPU，彼此通过NVLink 5组合在一起，还有多达240TB HBM3E。这台AI超级计算机可以处理万亿参数的大模型，能保证超大规模生成式AI训练和推理工作负载的持续运行，FP4精度下的性能高达11.5EFlops(每秒1150亿亿次)。DGX SuperPOD还具有极强的扩展性，可通过Quantum-X800 InfiniBand网络连接，扩展到数万颗GB200超级芯片，并加入BlueField-3 DPU数据处理单元，而每颗GPU都能获得1.8TB/s的高带宽。第四代可扩展分层聚合和规约协议(SHARP)技术，可提供14.4TFlops的网络计算能力，比上代提升4倍。此外，NVIDIA还发布了第六代通用AI超级计算平台“DGX B200”，包含两颗Intel五代至强处理器、八颗B200 GPU，具备1.4TB HBM3E、64TB/s带宽，FP4精度性能144PFlops(每秒14亿亿次)，万亿参数模型实时推理速度提升15倍。DGX B200系统还集成八个NVIDIA ConnectX-7网卡、两个BlueField-3 DPU高性能网络，每个连接带宽高达400Gb/s，可通过Quantum-2 InfiniBand、Spectrum?-X以太网网络平台，扩展支持更高的AI性能。基于Blackwell GPU的产品将在今年晚些时候陆续上市，亚马逊云、戴尔、谷歌、Meta、微软、OpenAI、甲骨文、特斯拉、xAI等都会采纳。亚马逊云、谷歌云、微软Azeure、甲骨文云将是首批提供Blackwell GPU驱动实例的云服务提供商，NVIDIA云合作伙伴计划的中的Applied Digital、CoreWeave、Crusoe、IBM Cloud、Lambda也将提供上述服务。Indosat Ooredoo Hutchinson、Nebius、Nexgen Cloud、甲骨文欧盟主权云、甲骨文美国/英国/澳大利亚政府云、Scaleway、新加坡电信、Northern Data Group旗下的Taiga Cloud、Yotta Data Services旗下的Shakti Cloud、YTL Power International 等主权AI云，也将提供基于Blackwell架构的云服务和基础设施。 ... PC版：手机版：

AMD Zen5旗舰笔记本APU现身：功耗可达120W、GPU被传媲美4060

AMD Zen5旗舰笔记本APU现身：功耗可达120W、GPU被传媲美4060 有趣的是，它会自带内存，容量32GB、64GB，应该是直接焊接在主板上。Strix Halo将采用chiplet整合封装设计，其中CPU部分预计有8个、12个、16个等至少三种配置，还有最多16MB二级缓存、32MB三级缓存。GPU升级到RDNA3+架构，最多40个计算单元，要知道RX 7600 XT也不过是32单元，有厂商透露其性能最高有望媲美移动版RTX 4060，甚至还有的说能达到移动版RTX 4070！内存支持高达LPDDR5X-8000，还有特别的32MB MALL缓存，类似现在显卡里的无限缓存，双双为GPU加速。NPU算力也进一步提高至最多60TOPS。 ... PC版：手机版：

RTX 5090/5080肩并肩走来测试功耗高达600W

RTX 5090/5080肩并肩走来测试功耗高达600W 这一幕似曾相识，2020年的RTX 30系列就是这么做的，RTX 3080首先于9月16日登场，RTX 3090随后在9月24日跟进。同时，NVIDIA已经开始测试RTX 50 FE公版的散热器，共有多达4个方案，散热能力最低250W，最高达600W。当然，显卡实际功耗并不一定会这么高，因为这种设计都会从宽考量，但也暗示RTX 50系列依然不会很清凉。RTX 4090测试期间，NVIDIA就设计过三风扇、四插槽的巨型散热器，最高散热能力达恐怖的800W，而最终可解锁的功耗上限也可达600W。 ... PC版：手机版：

NVIDIA官宣全新Rubin GPU、Vera CPU 3nm工艺配下代HBM4内存

NVIDIA官宣全新Rubin GPU、Vera CPU 3nm工艺配下代HBM4内存 NVIDIA现有的高性能GPU架构代号“Blackwell”，已经投产，相关产品今年陆续上市，包括用于HPC/AI领域的B200/GB200、用于游戏的RTX 50系列。2025年将看到“Blackwell Ultra”，自然是升级版本，但具体情况没有说。2026年就是全新的下一代“Rubin”，命名源于美国女天文学家Vera Rubin(薇拉·鲁宾)，搭配下一代HBM4高带宽内存，8堆栈。根据曝料，Rubin架构首款产品为R100，采用台积电3nm EUV制造工艺，四重曝光技术，CoWoS-L封装，预计2025年第四季度投产。2027年则是升级版的“Rubin Ultra”，HBM4内存升级为12堆栈，容量更大，性能更高。CPU方面下代架构代号“Vera”没错，用一个名字同时覆盖GPU、CPU，真正二合一。Vera CPU、Rubin GPU组成新一代超级芯片也在规划之中，将采用第六代NVLink互连总线，带宽高达3.6TB/s。此外，NVIDIA还有新一代数据中心网卡CX9 SuperNIC，最高带宽可达1600Gbps，也就是160万兆，并搭配新的InfiniBand/以太网交换机X1600。 ... PC版：手机版：

Intel下代至强W处理器曝光：核心最多60个、功耗却有350W

Intel下代至强W处理器曝光：核心最多60个、功耗却有350W 至强W-3400、至强W-2400系列是2023年2月份刚发布的，来源于四代可扩展至强Sapphire Rapids，最多56核心112线程、105MB三级缓存、4TB DDR5-4800八通道内存，112条PCIe 5.0通道。至强W-3500、至强W-2500系列并非基于去年底新发布的五代可扩展至强Emerald Rapids，而是仍旧来源于Sapphire Rapids，只是提升了规格当然了，Emerald Rapids也只是个升级版，并非全新。至强W-3500系列已知七款型号，对位升级，顶级旗舰至强W9-3595X，来到了60核心120线程、112MB三级缓存，对比现有至强W9-3495X增加了4个核心、7MB缓存，热设计功耗维持在350W，但是最高频率从4.8GHz降到了4.6GHz。往下还有44/32/28/24/20/16核心版本，对位普遍增加了4个，除了44核心是增加了8个。热设计功耗之前最低270W，现在来到了290W。至强W-2500系列是八款型号，同样对位升级，都增加了2个核心，来到26/22/18/14/12/10/8核心，频率也普遍有所提升，热设计功耗则从110-225W增加到175-250W。最高端是至强W7-2595X，26核心52线程，2.8-4.8GHz，三级缓存48.75MB。 ... PC版：手机版：

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人