首款GH200主机开卖：售价47500欧元起专为AI而生

首款GH200主机开卖：售价47500欧元起专为AI而生在定位上，它显然不合适为游戏和传统工作站而设计的，更准确点的定位，应该是主打本地运行大语言模型的AI工作站。这款主机配备了480GB LPDDR5X内存，算上GH200中的96GB HBM3内存（甚至144GB HBMe），做到了576GB-624GB。售价上，96GB HBM3内存版本售价为47500欧元（约37万元人民币），现已可购买，其中144GB HBMe版本在2024年预计第二季度推出，售价为59500欧元（约46万人民币）。这款AI工作站的具体配置，搭载的NVIDIA GH200 Grace Hopper处理器拥有72个ARM内核（也有144核的版本），配有专用的NVIDIA H100加速器，因此配备了双2000W电源和超大容量存储，支持各种连接扩展选项（包括 NVIDIA Bluefield / Connect-X）。这款PC的散热系统使用的是猫头鹰风扇，附加组件，可选Nvidia Bluefield-3和ConnectX-7网卡、8TB SSD、30TB HDD、鼠标和键盘，甚至还有RTX 4060。在性能上，这家德国公司声称这台AI工作站可以提供67 teraFLOPS FP64、989 teraFLOPS TF32、1979 teraFLOPS FP16、3958 teraFLOPS FP8、3958 TOPS INT8的计算性能。在Emerald Rapids、Bergamo这类软件的23项测试中，给出的结论是，GH200 Grace CPU的性能可以Intel至强铂金8592+ Emerald Rapids处理器相媲美。 ... PC版：手机版：

在Telegram中查看

相关推荐

moto首款AI旗舰 moto X50 Ultra图赏

moto首款AI旗舰 moto X50 Ultra图赏访问：NordVPN 立减 75% + 外加 3 个月时长另有NordPass密码管理器 moto X50 Ultra采用6.7英寸2712*1220p 1.5K 144Hz OLED显示屏，搭载高通骁龙8s Gen3处理器，配备4500mAh电池，支持125W有线闪充。其后置5000万主摄、6400万潜望以及5000万超广角微距摄像头，支持100倍混合变焦，这是迄今为止唯一一款拥有潜望长焦的骁龙8s Gen3旗舰。moto X50 Ultra核心卖点之一就是AI，这款旗舰搭载联想AI智能体联想小天。据悉，联想小天是专属于用户的“个人智能体”，小天由嵌入本地的天禧大模型驱动，通过自然交互，可在工作、学习和生活等诸多场景中为用户带来全新的AI体验。moto X50 Ultra 12GB+256GB售价3999元，12GB+512GB售价4299元，16GB+1TB售价4699元。 ... PC版：手机版：

NVIDIA Blackwell GPU预计售价3.5万美元 AI服务器售价高达300万美元

NVIDIA Blackwell GPU预计售价3.5万美元 AI服务器售价高达300万美元 NVIDIA 的 Blackwell 产品包括 GPU、超级芯片平台和服务器，是每一家热衷于人工智能的大型科技公司所梦寐以求的。来自汇丰银行的分析师披露了即将推出的组件的预期定价，英伟达的 Blackwell AI 服务器机架这次的价格不菲，将超过 300 万美元大关，B100 GPU 等 AI 加速器单卖的标价也很高。这一消息来自《巴伦周刊》（Barron's）的资深撰稿人@firstadopter引用了汇丰银行（HSBC）对英伟达（NVIDIA）Blackwell产品的分析。从人工智能服务器开始，英伟达 GB200 NVL36 服务器机架的单台售价预计为 180 万美元，而更高级的 NVL72 对应产品的售价则高达 300 万美元。我们在之前的报道中也透露了这一具体数额，因此实际数字可能不会太远。关于单卖的人工智能加速卡，汇丰银行表示，单个 B100 人工智能 GPU 的售价预计约为 3 万至 3.5 万美元，而GB200 超级芯片的单价约为 6 万至 7 万美元。这些超级芯片包含两个 GB100 GPU 和一个 Grace Hopper 芯片，以及一个大型系统内存池（HBM3E）。这些估价也与詹森本人透露的价格基本一致。分析师的估算可能没有考虑实时市场情况、采购量和许多其他因素。因此，根据买家类型和订单的严重程度，实际数字可能会更低甚至更高。现在，如果我们从代际上进行比较，Blackwell 价格肯定要比 Hopper 高。如果 Blackwell AI GPU 架构能够复制 Hopper GPU 的成功应用，那么英伟达的市场份额和主导地位又将会有质的飞跃。谁知道呢，也许它将超越苹果和微软等公司，成为全球最有价值的公司之一。到目前为止，我们已经看到Meta 等公司下达了 Blackwell 订单，微软和 OpenAI 也在其中，而这仅仅是首批订单。NVIDIA公司首席执行官黄仁勋（Jensen Huang）早早识别出人工智能热潮的大手笔确实收到了成效。 ... PC版：手机版：

精准缩水的NVIDIA三款中国特供AI GPU开始小批量供货

精准缩水的NVIDIA三款中国特供AI GPU开始小批量供货但是很快，美国出台新规，算力也做了限制，A800、H800甚至是RTX 4090就都没法卖了。为此，NVIDIA在游戏卡市场设计了RTX 4090D，已经低调上市。而在AI加速领域，NVIDIA设计了H20、L20、L2，原计划2023年就发布出货，但为了完全符合出口管制，推迟了一段时间。H20基于Hopper架构，是一款高性能的AI训练卡，正是中国客户亟需的，根据最新报道它已经开始小批量供货给中国，第二季度上量。H20的定价据称仅为1.2-1.5万美元，比华为升腾910B 1.7万美元要低不少，用心昭然若揭。L20、L2均基于Ada Lovelace架构，均为AI推理卡，暂不清楚是否已经供货，可能要稍等等，对于中国客户而言也不是非常迫切的需要。目前，三款新卡的最终规格已经确定，和之前曝光的基本一致。H20的规格还是比较强的，INT8/FP8 Tensor算力为296T，BF16/FP16 Tensor算力为148T，TF32 Tensor算力为74T，FP32算力为44T，FP64算力为1T，功耗400W。它具备60MB二级缓存、96GB HBM3内存，带宽4TB/s，支持7路NVDEC、7路NVJPEG视频引擎，还有着PCIe 5.0 x16系统接口、900GB/s NVLink互联带宽，支持最多7个MIG。相比于H200，它少了45GB HBM3，算力更是阉割得七零八落，INT8/FP8、BF16/FP16、TF32都少了多达93％，FP64少了足足97％，只有FP32至少了35％。但即便如此，H20 FP32性能依然不如华为升腾910B，这也是后者最大的优势。H20还可以八卡并行，组成一套HGX服务器，价格大约20万美元，而之前八块H800服务器需要大约28万美元。L20是双插槽全高全长PCIe扩展卡，搭载96MB二级缓存、48GB GDDR6 ECC内存，带宽864GB/s，INT8/FP8算力为239T，更高精度逐级减半，但不支持FP64，功耗275W。L2则是单插槽半高卡，只有36MB二级缓存、24GB GDDR6 ECC，带宽300GB/s，算力进一步降低INT8/FP8 193T，FP32额外砍了一半只有24.1T。 ... PC版：手机版：

英伟达发布用于AI的"世界上最强大芯片"Blackwell B200 GPU

英伟达发布用于AI的"世界上最强大芯片"Blackwell B200 GPU NVIDIA 首席执行官黄仁勋在 GTC 现场直播中举起他的新 GPU（左边），右边是 H100。NVIDIA 表示，新的 B200 GPU 拥有 2080 亿个晶体管，可提供高达 20petaflops 的 FP4 算力，而 GB200 将两个 GPU 和一个 Grace CPU 结合在一起，可为 LLM 推理工作负载提供 30 倍的性能，同时还可能大大提高效率。NVIDIA 表示，与 H100 相比，它的成本和能耗"最多可降低 25 倍"。NVIDIA 声称，训练一个 1.8 万亿个参数的模型以前需要 8000 个 Hopper GPU 和 15 兆瓦的电力。如今，NVIDIA 首席执行官表示，2000 个 Blackwell GPU 就能完成这项工作，耗电量仅为 4 兆瓦。NVIDIA 表示，在具有 1750 亿个参数的 GPT-3 LLM 基准测试中，GB200 的性能是 H100 的 7 倍，而 NVIDIA 称其训练速度是 H100 的 4 倍。这就是 GB200 的样子。两个 GPU、一个 CPU、一块电路板NVIDIA 介绍说，其中一项关键改进是采用了第二代变压器引擎，通过为每个神经元使用四个比特而不是八个比特，将计算能力、带宽和模型大小提高了一倍（前面提到的 FP4 的 20 petaflops）。第二个关键区别只有在连接大量 GPU 时才会出现：新一代 NVLink 交换机可让 576 个 GPU 相互连接，双向带宽达到每秒 1.8 TB。这就要求 NVIDIA 打造一个全新的网络交换芯片，其中包含 500 亿个晶体管和一些自己的板载计算：NVIDIA 表示，该芯片拥有 3.6 teraflops 的 FP8 处理能力。NVIDIA 表示将通过 Blackwell 增加 FP4 和 FP6NVIDIA 表示，在此之前，由 16 个 GPU 组成的集群有 60% 的时间用于相互通信，只有 40% 的时间用于实际计算。当然，NVIDIA 还指望企业大量购买这些 GPU，并将它们包装成更大的设计，比如 GB200 NVL72，它将 36 个 CPU 和 72 个 GPU 集成到一个液冷机架中，可实现总计 720 petaflops 的 AI 训练性能或 1440 petaflops（又称 1.4exaflops）的推理性能。它内部有近两英里长的电缆，共有 5000 条独立电缆。GB200 NVL72机架上的每个托盘包含两个 GB200 芯片或两个 NVLink 交换机，每个机架有 18 个前者和 9 个后者。NVIDIA 称，其中一个机架总共可支持 27 万亿个参数模型。据传，GPT-4 的参数模型约为 1.7 万亿。该公司表示，亚马逊、Google、微软和甲骨文都已计划在其云服务产品中提供 NVL72 机架，但不清楚它们将购买多少。当然，NVIDIA 也乐于为公司提供其他解决方案。下面是用于 DGX GB200 的 DGX Superpod，它将八个系统合而为一，总共拥有 288 个 CPU、576 个 GPU、240TB 内存和 11.5 exaflops 的 FP4 计算能力。NVIDIA 称，其系统可扩展至数万 GB200 超级芯片，并通过其新型 Quantum-X800 InfiniBand（最多 144 个连接）或 Spectrum-X800 以太网（最多 64 个连接）与 800Gbps 网络连接在一起。我们预计今天不会听到任何关于新游戏 GPU 的消息，因为这一消息是在 NVIDIA 的 GPU 技术大会上发布的，而该大会通常几乎完全专注于 GPU 计算和人工智能，而不是游戏。不过，Blackwell GPU 架构很可能也会为未来的 RTX 50 系列桌面显卡提供算力。 ... PC版：手机版：

三星将首秀36GB HBM3E内存：NVIDIA H200单卡就有216GB

三星将首秀36GB HBM3E内存：NVIDIA H200单卡就有216GB NVIDIA H200 AI加速卡将首发采用三星36GB HBM3E，只需要八颗，就能达成6144-bit的位宽、216GB的容量，从而超过192GB HBM3内存的AMD Instinct MI300X。H200还支持四路、八路互连，因此单系统的HBM3E内存容量可以达到864GB、1728GB！按照惯例，NVIDIA可能会出于良品率的考虑，屏蔽一小部分容量，但是单卡超过200GB、单系统超过1.6TB必然是很轻松的。按照NVIDIA的说法，H200虽然还是Hopper架构，但相比H100再次飞跃，700亿参数Llama2、1750亿参数GTP-3模型的推理性能分别提升多达90％、60％，对比前代A100 HPC模拟性能直接翻番。NVIDIA H200计划2024年第二季度出货，三星36GB HBM3E则会在第一季度投入量产，正好赶得上。 ... PC版：手机版：

AMD公布AI加速卡路线图：紧随NVIDIA每年一更新 2025年就出CDNA4架构

AMD公布AI加速卡路线图：紧随NVIDIA每年一更新 2025年就出CDNA4架构这款加速卡将配备高达288GB的HBM3E内存和6TB/s的内存带宽，提供1.3PFLOPs的FP16和2.6PFLOPs的FP8计算性能，能够处理高达1万亿参数的服务器。AMD还将在2025年推出的MI350系列，该系列将基于下一代CDNA 4架构，并与OAM兼容。MI350系列将基于3nm工艺技术，同样提供高达288GB的HBM3E内存，并支持FP4/FP6数据类型。2026年，AMD计划推出基于全新CDNA架构，简称为"CDNA Next"的MI400系列。在性能方面，CDNA 3架构预计将比CDNA 2提高8倍，而CDNA 4架构预计将比CDNA 3提供大约35倍的AI推理性能提升。AMD还分享了与NVIDIA Blackwell B200 GPU的比较数据，MI350系列预计将提供比B200多50%的内存和多20%的计算TFLOPs。AMD还重申了上周公布的UALink（Ultra Accelerator Link）的最新消息，这是一个由多家厂商包括微软、英特尔、思科、博通、Meta、惠普等共同开发的新型高性能、开放和可扩展的AI互连基础设施。 ... PC版：手机版：

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人