伪装成拉杆箱的超级计算机:4块显卡、246TB硬盘、2500W电源

伪装成拉杆箱的超级计算机:4块显卡、246TB硬盘、2500W电源 它还采用了模块化设计,可以自行拆卸、定义配置,满足不同计算需求,除了基础平台部分,计算、加速、存储、网络等各自独立。计算部分有一颗AMD EPYC 7313 16核心处理器(3.0-3.7GHz/155W)、四条64GB DDR4-3200内存、一块512GB NMVe M.2 SSD、Linux Rocky 8/9或者Ubuntu 20/24系统、QSFP56/QSFP28/QSFP+双十万兆网卡。加速部分默认是NVIDIA L40S 48GB,也有其他可选,最多四块。存储部分是八块30TB E1.L SSD,总计246TB。网络部分是两个十万兆的QSFP56、六个2.5万兆的SFP28。基础平台部分自带了2500W电源,以及六个60mm风扇。至于大家关心的价格,没有公开。 ... PC版: 手机版:

相关推荐

封面图片

新纪录将圆周率计算到了小数点后202万亿位 用了28块61.44TB SSD

新纪录将圆周率计算到了小数点后202万亿位 用了28块61.44TB SSD 本次计算采用了戴尔PowerEdge R760服务器,配置Intel五代至强铂金8592+ 64核心处理器、1TB DDR5内存、Solidigm D5-P5336 61.44TB SSD,一共多达28块,总容量将近1.5PB。计算连续进行了足足85天,也就是将近三个月,每块SSD都写入了3.76PB的数据。计算圆周率当然需要超强的CPU算力,那为什么还需要超大SSD呢?这是因为,当计算数据过大、远远大于内存时,必须使用多精度算术软件算法,将数据分解成易于管理的数据块,并使用特定算法进行分离,自然对存储容量、速度提出了严格的要求。之前计算105万亿位的时候,用的也是Solidigm SSD,搭配了AMD EPYC 256核心处理器。 ... PC版: 手机版:

封面图片

黄仁勋抛出2700W功耗的真核弹 还有240TB显存的AI超级计算机

黄仁勋抛出2700W功耗的真核弹 还有240TB显存的AI超级计算机 Blackwell B200 GPU首次采用了chiplet晶粒封装,包含两颗B100,而B200之间再通过带宽翻倍达1.8TB/s的第五代NVLink 5总线互连,最多可连接576块。B100采用专门定制的台积电4NP工艺制造(H100/RTX 40 4N工艺的增强版),已经达到双倍光刻极限尺寸,彼此通过10TB/s带宽的片间互联带宽,连接成一块统一的B200 GPU。B100集成多达1040亿个晶体管,比上代H100 800亿个增加了足足30%,B200整体就是2080亿个晶体管。核心面积未公布,考虑到工艺极限应该不会比814平方毫米的H100大太多。CUDA核心数量也没说,但肯定会大大超过H100 16896个,不知道能不能突破2万个?每颗B100连接四颗24GB HBM3E显存/内存,等效频率8GHz,位宽4096-bit,带宽达4TB/s。如此一来,B200就有多达192GB HBM3E,总位宽8096-bit,总带宽8TB/s,相比H100分别增加1.4倍、58%、1.4倍。性能方面,B200新增支持FP4 Tensor数据格式,性能达到9PFlops(每秒9千万亿次),INT/FP8、FP16、TF32 Tensor性能分别达到4.5、2.25、1.1PFlops,分别提升1.2倍、1.3倍、1.3倍,但是FP64 Tensor性能反而下降了40%(依赖GB200),FP32、FP64 Vector性能则未公布。Blackwell GPU还支持第二代Transformer引擎,支持全新的微张量缩放,在搭配TensorRT-LLM、NeMo Megatron框架中的先进动态范围管理算法,从而在新型4位浮点AI推理能力下实现算力和模型大小的翻倍。其他还有RAS可靠性专用引擎、安全AI、解压缩引擎等。至于功耗,B100控制在700W,和上代H100完全一致,B200则首次达到了1000W。NVIDIA宣称,Blackwell GPU能够在10万亿参数的大模型上实现AI训练和实时大语言模型推理。GB200 Grace Blackwell是继Grace Hopper之后的新一代超级芯片(Superchip),从单颗GPU+单颗CPU升级为两颗GPU加一颗CPU,其中GPU部分就是B200,CPU部分不变还是Grace,彼此通过900GB/s的带宽实现超低功耗片间互联。在大语言模型推理工作负载方面,GB200超级芯片的性能对比H100提升了多达30倍。不过代价也很大,GB200的功耗最高可达2700W,可以使用分冷,更推荐使用液冷。基于GB200超级芯片,NVIDIA打造了新一代的AI超级计算机“DGX SuperPOD”,配备36块超级芯片,也就是包含36颗Grace CPU、72颗B200 GPU,彼此通过NVLink 5组合在一起,还有多达240TB HBM3E。这台AI超级计算机可以处理万亿参数的大模型,能保证超大规模生成式AI训练和推理工作负载的持续运行,FP4精度下的性能高达11.5EFlops(每秒1150亿亿次)。DGX SuperPOD还具有极强的扩展性,可通过Quantum-X800 InfiniBand网络连接,扩展到数万颗GB200超级芯片,并加入BlueField-3 DPU数据处理单元,而每颗GPU都能获得1.8TB/s的高带宽。第四代可扩展分层聚合和规约协议(SHARP)技术,可提供14.4TFlops的网络计算能力,比上代提升4倍。此外,NVIDIA还发布了第六代通用AI超级计算平台“DGX B200”,包含两颗Intel五代至强处理器、八颗B200 GPU,具备1.4TB HBM3E、64TB/s带宽,FP4精度性能144PFlops(每秒14亿亿次),万亿参数模型实时推理速度提升15倍。DGX B200系统还集成八个NVIDIA ConnectX-7网卡、两个BlueField-3 DPU高性能网络,每个连接带宽高达400Gb/s,可通过Quantum-2 InfiniBand、Spectrum?-X以太网网络平台,扩展支持更高的AI性能。基于Blackwell GPU的产品将在今年晚些时候陆续上市,亚马逊云、戴尔、谷歌、Meta、微软、OpenAI、甲骨文、特斯拉、xAI等都会采纳。亚马逊云、谷歌云、微软Azeure、甲骨文云将是首批提供Blackwell GPU驱动实例的云服务提供商,NVIDIA云合作伙伴计划的中的Applied Digital、CoreWeave、Crusoe、IBM Cloud、Lambda也将提供上述服务。Indosat Ooredoo Hutchinson、Nebius、Nexgen Cloud、甲骨文欧盟主权云、甲骨文美国/英国/澳大利亚政府云、Scaleway、新加坡电信、Northern Data Group旗下的Taiga Cloud、Yotta Data Services旗下的Shakti Cloud、YTL Power International 等主权AI云,也将提供基于Blackwell架构的云服务和基础设施。 ... PC版: 手机版:

封面图片

美国拍卖退役超级计算机 起价仅2500美元 曾经全球第20

美国拍卖退役超级计算机 起价仅2500美元 曾经全球第20 这套超算位于美国怀俄明州夏延市的国家大气研究中心超算中心,2016年开始安装,2017年1月12日投用,2023年12月31日退役,七年的时间里为大气和地球系统科学研究做出了杰出贡献。服役期间,它运行了超过70亿核心小时,服务了4400多名用户,支持了近1300项美国国家科学基金会资助项目、80多门大学课程和培训活,产生了超过4500篇经同行评审的出版物、硕士/博士论文等。它共有4032个节点,每节点两颗Intel至强E5-2697 v4 2.3GHz 18核心处理器,共计145152个核心,还有313TB内存、40PB硬盘,能耗1.7兆瓦。峰值性能为5.34PFlops(5340万亿次浮点每秒),刚上线的时候高居全球第20位,而如今世界第一的Frontier峰值性能高达1.68EFlops(168亿亿次浮点每秒),共有8699904个核心,能耗22.7兆瓦。其实,“夏延”最初计划的使用年限只有五年,但因为新冠疫情导致供应链中断,被迫多干了两年。最终,散热系统出现问题,导致大约1%的节点存在内存ECC错误,而且停机时间和维修成本过高,只能退役并拍卖。目前已经有十多人对此超算感兴趣,并出价竞拍,但最高也只有27643美元,约合人民币20万元。 ... PC版: 手机版:

封面图片

国产兆芯开胜KH-40000 CPU可扩展26.2万核心 硬盘超880万TB

国产兆芯开胜KH-40000 CPU可扩展26.2万核心 硬盘超880万TB 该方案最多支持4096个节点,每个节点可安装一颗或两颗兆芯开胜KH-40000/16 16核心、KH-40000/32 32核心处理器,总计最多可达262144个核心。节点高度可选2U、4U,每节点可安装最多90块数据硬盘(HDD)。按照目前最大容量24TB计算,总容量可以超过8EB,确切地说是8847360TB,或者说超过了880万TB。同时,每个节点还有两块SATA SSD作为系统盘,内存最大4TB,如果是4096个节点那就是16PB。该方案通过全对称、去中心化分布式集群架构,结合大比例EC(Erasure Coding)技术,将大容量硬盘融合成统一的资源池,为上层应用提供高可靠、低成本存储空间。存储节点采用双交互组网互联,各节点角色相同无专用元数据服务设计,消除元数据瓶颈,容量性能随集群规模扩张线性增长,数据自动均衡分布,节点间自动负载均衡。方案特点1、功能强大- 去中心化架构:全对称分布式架构,无集中元数据设计,消除性能瓶颈;- 无限扩展:最大支持4096个节点以上,近乎无限扩展;- 超大容量:单一集群最大容量8EB以上;- 统一命名空间:集群对外提供统一命名空间;2、卓越性能- 性能线性增长:分布式对称架构,性能随节点增加线性增长;- 非结构化化数据存储:海量图片秒级存储,秒级检索;- 高性能读写:单节点带宽最高可达5.0GB/s;3、稳定可靠- 集群间可靠:支持跨地域集群的复制,主备站点快速切换;- 集群级可靠:去中心化全对称架构,任一节点故障均不影响业务运行;- 对象/文件级可靠:EC冗余编码,N+M数据冗余保护,N+M最大可达64,M值建议范围2~8,支持容忍8节点故障数据不丢失,业务不中断;应用场景举例1、视频监控应用场景提供近乎无限的存储容量和性能扩展。支持流直存架构,兼容GB/T28181、Onvif等主流视频协议,单节点支持1600路4Mbps视频流接入,磁盘利用率最高可达96.88%。支持视频智能修复,最大可能保护视频数据。2、医疗科研应用场景通过智能分级、智能缓存、智能聚合等技术,大幅提升PACS小文件读写性能。在遵从法规要求的前提下,提供长期安全的存储能力,同时满足原始影像数据随时随地快速调取的需求。3、金融行业应用场景针对非结构化数据,提供智能检索、智能缓存、智能分级、智能聚合等性能优化技术,实现海量小图片秒级存储、秒级检索。4、媒资应用场景作为媒资库的统一存储池,实现采集、编辑、点播、管理、存储业务数据的动态共享。单一集群高达7.4EB存储容量,可满足4K、8K超高清资源对存储容量的需求。去中心化全对称分布式架构,节点内硬件冗余设计,保障业务的长期可靠运行。目前,兆芯和泛联信息的这套海量存储方案已经有了不少服务器产品。比如联想开天KR722z G2,2U通用机架式规格,前置支持12个3.5寸或24个2.5寸热插拔硬盘,后置支持4个热插拔硬盘,内存容量最高2TB,同时整机采用冗余散热、可选电源设计。再比如超云R3210 Z11,采用双路兆芯开胜KH-40000/32,支持前置12个3.5寸或24个2.5寸热插拔硬盘、后置2个2.5寸热插拔硬盘,最多32个内存条、6个PCle插槽。 ... PC版: 手机版:

封面图片

俄罗斯Roselectronics为超级计算机设计128核服务器处理器平台

俄罗斯Roselectronics为超级计算机设计128核服务器处理器平台 目前“Basis”由三台通用服务器组成,每台服务器集成了 128 核处理器,并提供了高达 2TB 的 DRAM。服务器使用Angara高速通信网络互连,该网络也是由SRCEC开发的。数据传输通道允许高达 75 Gbps 的速度,最小通信延迟仅为 1 微秒。这种设置确保了服务器之间的超低延迟和高速数据交换,促进了整个集群的高效计算操作。Basis还能够进一步扩展到数百个节点,并支持创建数千个虚拟工作场景。根据该报告,Basis可用于设置数据处理和存储中心,虚拟化办公室以及图形应用程序的服务器。它在需要超级计算能力进行非常规计算的环境中特别有效。这使得它非常适合需要虚拟化工作空间的工程应用程序,并对 3D 图形处理提供强大的支持。“新的软件和硬件综合体的应用范围非常广泛。例如,我们的技术可以轻松处理创建虚拟化工程工作场所的任务,并支持 3D 图形的硬件处理。高数据传输容量和灵活的扩展系统允许执行最复杂的计算操作。我们的专家已准备好根据特定任务和客户需求计算和调整我们的新 SHC。”SRCEC 首席执行官 Ruslan Dzeitov 说道。但是,目前Roselectronics面临的最大的问题时,如何生产这种128核处理器(也可能是两个64核处理器),因为它将是一块相当大的硅片,或者是多个小芯片。虽然俄罗斯拥有自己的半导体生产能力,但仍停留在65纳米级,而该国的芯片制造商在适当的经济效率下所能做的最好的芯片也只是微控制器,而非复杂的高性能芯片。因此,对于 128 核的数据中心级处理器,Roselektrica 公司将不得不询问外国合作伙伴。鉴于台湾的代工厂因制裁而被排除在其选择之外(例如台积电、先锋等),俄罗斯生产这种CPU的唯一方法是寻求中国的晶圆代工厂提供服务,但是由于美国制裁的影响,中国厂商对此也是十分的谨慎,目前没有迹象表明有中国的晶圆代工厂有为俄罗斯客户代工芯片。 ... PC版: 手机版:

封面图片

加州大学河滨分校研究人员通过软件调整消除瓶颈 将计算机处理速度提升一倍

加州大学河滨分校研究人员通过软件调整消除瓶颈 将计算机处理速度提升一倍 从智能手机和个人电脑到数据中心服务器,大多数现代计算机都包含用于人工智能和机器学习的图形处理器(GPU)和硬件加速器。著名的商业案例包括NVIDIA GPU 上的张量核心(Tensor Cores)、Google云服务器上的张量处理单元(TPU)、苹果 iPhone 上的神经引擎(Neural Engines)以及Google Pixel 手机上的边缘 TPU。这些组件各自处理信息,将信息从一个处理单元转移到下一个处理单元时往往会造成数据流的瓶颈。在一项新的研究中,加州大学河滨分校(UCR)的研究人员展示了一种方法,让现有的不同组件同时运行,从而大大提高处理速度并降低能耗。加州大学洛杉矶分校电气与计算机工程系副教授、该研究的共同第一作者曾宏伟说:"不必增加新的处理器,因为你已经拥有了它们。"研究人员的框架被称为同步异构多线程(SHMT),它摒弃了传统的编程模式,即只能将代码区域专门委托给一种处理器,而让其他资源闲置,不为当前功能做贡献。相反,SHMT 利用了多个组件的多样性或异质性,将计算功能拆分开来,让它们共享。换句话说,这是一种并行处理。比较 (a) 传统异构计算机、(b) 带有软件流水线的传统异构计算机和 (c) SHMT 执行功能的方式 图/Hsu 和 Tseng工作原理您可以跳过这部分内容,但对于计算机科学爱好者来说,下面是有关 SHMT 工作原理的概述(仍然非常基础)。一组虚拟操作(VOPs)允许 CPU 程序将功能"卸载"到虚拟硬件设备上。在程序执行过程中,运行时系统会驱动 SHMT 的虚拟硬件,衡量硬件资源的能力以做出调度决策。SHMT 采用质量感知工作抢占(QAWS)调度策略,不会占用资源,但有助于保持质量控制和工作负载平衡。运行时系统将 VOP 分成一个或多个高级操作 (HLOP),以便同时使用多个硬件资源。然后,SHMT 的运行时系统将这些 HLOP 分配到目标硬件的任务队列中。由于 HLOP 与硬件无关,运行时系统可以根据需要调整任务分配。原型测试和结果为了测试这一概念,研究人员构建了一个系统,该系统采用的芯片和处理能力可以在任何像样的后期型号智能手机中找到,并做了一些调整,这样他们还可以测试该系统在数据中心中的功能。SHMT 原型平台具体来说,他们使用NVIDIA的Jetson Nano模块定制了一个嵌入式系统平台,该模块包含一个四核 ARM Cortex-A57 处理器(CPU)和 128 个 Maxwell 架构 GPU 内核。Google Edge TPU 通过其 M.2 Key E 插槽与系统相连。中央处理器、图形处理器和 TPU 通过板载 PCIe 接口交换数据,PCIe 接口是主板组件(如图形卡、内存和存储设备)的标准化接口。系统的主内存(4 GB 64 位 LPDDR4,1,600 MHz,25.6 GB/s)托管共享数据。Edge TPU 还包含一个 8 MB 的设备内存,并使用 Ubuntu Linux 18.04 作为操作系统。使用基准应用程序对 SHMT 概念进行了测试后发现,采用性能最佳的 QAWS 策略的框架将其发挥得淋漓尽致,与基准方法相比,速度提高了 1.95 倍,能耗显著降低了 51%。采用不同调度策略的 SHMT 速度提升(相对于基准 GPU)这一切意味着什么?研究人员说,这对 SHMT 的影响是巨大的。现有手机、平板电脑、台式机和笔记本电脑上的软件应用程序可以利用这个新的软件库实现一些相当惊人的性能提升。但它也能减少对昂贵的高性能组件的需求,从而带来更便宜、更高效的设备。由于这种方法可以减少能源消耗,进而降低制冷需求,因此可以优化数据中心的两个关键项目,同时还能减少碳排放和用水量。能源消耗和能源延迟产品 图/加州大学河滨分校与往常一样,我们还需要对系统的实施、硬件支持以及哪类应用最受益等方面进行进一步的研究,但有了这些成果,我们相信该团队在吸引资源将其推广开来方面不会遇到什么困难。这项研究在第 56 届 IEEE/ACM 微体系结构国际研讨会MICRO 2023 上发表。 ... PC版: 手机版:

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人