伪装成拉杆箱的超级计算机:4块显卡、246TB硬盘、2500W电源

伪装成拉杆箱的超级计算机:4块显卡、246TB硬盘、2500W电源 它还采用了模块化设计,可以自行拆卸、定义配置,满足不同计算需求,除了基础平台部分,计算、加速、存储、网络等各自独立。计算部分有一颗AMD EPYC 7313 16核心处理器(3.0-3.7GHz/155W)、四条64GB DDR4-3200内存、一块512GB NMVe M.2 SSD、Linux Rocky 8/9或者Ubuntu 20/24系统、QSFP56/QSFP28/QSFP+双十万兆网卡。加速部分默认是NVIDIA L40S 48GB,也有其他可选,最多四块。存储部分是八块30TB E1.L SSD,总计246TB。网络部分是两个十万兆的QSFP56、六个2.5万兆的SFP28。基础平台部分自带了2500W电源,以及六个60mm风扇。至于大家关心的价格,没有公开。 ... PC版: 手机版:

相关推荐

封面图片

黄仁勋抛出2700W功耗的真核弹 还有240TB显存的AI超级计算机

黄仁勋抛出2700W功耗的真核弹 还有240TB显存的AI超级计算机 Blackwell B200 GPU首次采用了chiplet晶粒封装,包含两颗B100,而B200之间再通过带宽翻倍达1.8TB/s的第五代NVLink 5总线互连,最多可连接576块。B100采用专门定制的台积电4NP工艺制造(H100/RTX 40 4N工艺的增强版),已经达到双倍光刻极限尺寸,彼此通过10TB/s带宽的片间互联带宽,连接成一块统一的B200 GPU。B100集成多达1040亿个晶体管,比上代H100 800亿个增加了足足30%,B200整体就是2080亿个晶体管。核心面积未公布,考虑到工艺极限应该不会比814平方毫米的H100大太多。CUDA核心数量也没说,但肯定会大大超过H100 16896个,不知道能不能突破2万个?每颗B100连接四颗24GB HBM3E显存/内存,等效频率8GHz,位宽4096-bit,带宽达4TB/s。如此一来,B200就有多达192GB HBM3E,总位宽8096-bit,总带宽8TB/s,相比H100分别增加1.4倍、58%、1.4倍。性能方面,B200新增支持FP4 Tensor数据格式,性能达到9PFlops(每秒9千万亿次),INT/FP8、FP16、TF32 Tensor性能分别达到4.5、2.25、1.1PFlops,分别提升1.2倍、1.3倍、1.3倍,但是FP64 Tensor性能反而下降了40%(依赖GB200),FP32、FP64 Vector性能则未公布。Blackwell GPU还支持第二代Transformer引擎,支持全新的微张量缩放,在搭配TensorRT-LLM、NeMo Megatron框架中的先进动态范围管理算法,从而在新型4位浮点AI推理能力下实现算力和模型大小的翻倍。其他还有RAS可靠性专用引擎、安全AI、解压缩引擎等。至于功耗,B100控制在700W,和上代H100完全一致,B200则首次达到了1000W。NVIDIA宣称,Blackwell GPU能够在10万亿参数的大模型上实现AI训练和实时大语言模型推理。GB200 Grace Blackwell是继Grace Hopper之后的新一代超级芯片(Superchip),从单颗GPU+单颗CPU升级为两颗GPU加一颗CPU,其中GPU部分就是B200,CPU部分不变还是Grace,彼此通过900GB/s的带宽实现超低功耗片间互联。在大语言模型推理工作负载方面,GB200超级芯片的性能对比H100提升了多达30倍。不过代价也很大,GB200的功耗最高可达2700W,可以使用分冷,更推荐使用液冷。基于GB200超级芯片,NVIDIA打造了新一代的AI超级计算机“DGX SuperPOD”,配备36块超级芯片,也就是包含36颗Grace CPU、72颗B200 GPU,彼此通过NVLink 5组合在一起,还有多达240TB HBM3E。这台AI超级计算机可以处理万亿参数的大模型,能保证超大规模生成式AI训练和推理工作负载的持续运行,FP4精度下的性能高达11.5EFlops(每秒1150亿亿次)。DGX SuperPOD还具有极强的扩展性,可通过Quantum-X800 InfiniBand网络连接,扩展到数万颗GB200超级芯片,并加入BlueField-3 DPU数据处理单元,而每颗GPU都能获得1.8TB/s的高带宽。第四代可扩展分层聚合和规约协议(SHARP)技术,可提供14.4TFlops的网络计算能力,比上代提升4倍。此外,NVIDIA还发布了第六代通用AI超级计算平台“DGX B200”,包含两颗Intel五代至强处理器、八颗B200 GPU,具备1.4TB HBM3E、64TB/s带宽,FP4精度性能144PFlops(每秒14亿亿次),万亿参数模型实时推理速度提升15倍。DGX B200系统还集成八个NVIDIA ConnectX-7网卡、两个BlueField-3 DPU高性能网络,每个连接带宽高达400Gb/s,可通过Quantum-2 InfiniBand、Spectrum?-X以太网网络平台,扩展支持更高的AI性能。基于Blackwell GPU的产品将在今年晚些时候陆续上市,亚马逊云、戴尔、谷歌、Meta、微软、OpenAI、甲骨文、特斯拉、xAI等都会采纳。亚马逊云、谷歌云、微软Azeure、甲骨文云将是首批提供Blackwell GPU驱动实例的云服务提供商,NVIDIA云合作伙伴计划的中的Applied Digital、CoreWeave、Crusoe、IBM Cloud、Lambda也将提供上述服务。Indosat Ooredoo Hutchinson、Nebius、Nexgen Cloud、甲骨文欧盟主权云、甲骨文美国/英国/澳大利亚政府云、Scaleway、新加坡电信、Northern Data Group旗下的Taiga Cloud、Yotta Data Services旗下的Shakti Cloud、YTL Power International 等主权AI云,也将提供基于Blackwell架构的云服务和基础设施。 ... PC版: 手机版:

封面图片

美国拍卖退役超级计算机 起价仅2500美元 曾经全球第20

美国拍卖退役超级计算机 起价仅2500美元 曾经全球第20 这套超算位于美国怀俄明州夏延市的国家大气研究中心超算中心,2016年开始安装,2017年1月12日投用,2023年12月31日退役,七年的时间里为大气和地球系统科学研究做出了杰出贡献。服役期间,它运行了超过70亿核心小时,服务了4400多名用户,支持了近1300项美国国家科学基金会资助项目、80多门大学课程和培训活,产生了超过4500篇经同行评审的出版物、硕士/博士论文等。它共有4032个节点,每节点两颗Intel至强E5-2697 v4 2.3GHz 18核心处理器,共计145152个核心,还有313TB内存、40PB硬盘,能耗1.7兆瓦。峰值性能为5.34PFlops(5340万亿次浮点每秒),刚上线的时候高居全球第20位,而如今世界第一的Frontier峰值性能高达1.68EFlops(168亿亿次浮点每秒),共有8699904个核心,能耗22.7兆瓦。其实,“夏延”最初计划的使用年限只有五年,但因为新冠疫情导致供应链中断,被迫多干了两年。最终,散热系统出现问题,导致大约1%的节点存在内存ECC错误,而且停机时间和维修成本过高,只能退役并拍卖。目前已经有十多人对此超算感兴趣,并出价竞拍,但最高也只有27643美元,约合人民币20万元。 ... PC版: 手机版:

封面图片

国产兆芯开胜KH-40000 CPU可扩展26.2万核心 硬盘超880万TB

国产兆芯开胜KH-40000 CPU可扩展26.2万核心 硬盘超880万TB 该方案最多支持4096个节点,每个节点可安装一颗或两颗兆芯开胜KH-40000/16 16核心、KH-40000/32 32核心处理器,总计最多可达262144个核心。节点高度可选2U、4U,每节点可安装最多90块数据硬盘(HDD)。按照目前最大容量24TB计算,总容量可以超过8EB,确切地说是8847360TB,或者说超过了880万TB。同时,每个节点还有两块SATA SSD作为系统盘,内存最大4TB,如果是4096个节点那就是16PB。该方案通过全对称、去中心化分布式集群架构,结合大比例EC(Erasure Coding)技术,将大容量硬盘融合成统一的资源池,为上层应用提供高可靠、低成本存储空间。存储节点采用双交互组网互联,各节点角色相同无专用元数据服务设计,消除元数据瓶颈,容量性能随集群规模扩张线性增长,数据自动均衡分布,节点间自动负载均衡。方案特点1、功能强大- 去中心化架构:全对称分布式架构,无集中元数据设计,消除性能瓶颈;- 无限扩展:最大支持4096个节点以上,近乎无限扩展;- 超大容量:单一集群最大容量8EB以上;- 统一命名空间:集群对外提供统一命名空间;2、卓越性能- 性能线性增长:分布式对称架构,性能随节点增加线性增长;- 非结构化化数据存储:海量图片秒级存储,秒级检索;- 高性能读写:单节点带宽最高可达5.0GB/s;3、稳定可靠- 集群间可靠:支持跨地域集群的复制,主备站点快速切换;- 集群级可靠:去中心化全对称架构,任一节点故障均不影响业务运行;- 对象/文件级可靠:EC冗余编码,N+M数据冗余保护,N+M最大可达64,M值建议范围2~8,支持容忍8节点故障数据不丢失,业务不中断;应用场景举例1、视频监控应用场景提供近乎无限的存储容量和性能扩展。支持流直存架构,兼容GB/T28181、Onvif等主流视频协议,单节点支持1600路4Mbps视频流接入,磁盘利用率最高可达96.88%。支持视频智能修复,最大可能保护视频数据。2、医疗科研应用场景通过智能分级、智能缓存、智能聚合等技术,大幅提升PACS小文件读写性能。在遵从法规要求的前提下,提供长期安全的存储能力,同时满足原始影像数据随时随地快速调取的需求。3、金融行业应用场景针对非结构化数据,提供智能检索、智能缓存、智能分级、智能聚合等性能优化技术,实现海量小图片秒级存储、秒级检索。4、媒资应用场景作为媒资库的统一存储池,实现采集、编辑、点播、管理、存储业务数据的动态共享。单一集群高达7.4EB存储容量,可满足4K、8K超高清资源对存储容量的需求。去中心化全对称分布式架构,节点内硬件冗余设计,保障业务的长期可靠运行。目前,兆芯和泛联信息的这套海量存储方案已经有了不少服务器产品。比如联想开天KR722z G2,2U通用机架式规格,前置支持12个3.5寸或24个2.5寸热插拔硬盘,后置支持4个热插拔硬盘,内存容量最高2TB,同时整机采用冗余散热、可选电源设计。再比如超云R3210 Z11,采用双路兆芯开胜KH-40000/32,支持前置12个3.5寸或24个2.5寸热插拔硬盘、后置2个2.5寸热插拔硬盘,最多32个内存条、6个PCle插槽。 ... PC版: 手机版:

封面图片

俄罗斯Roselectronics为超级计算机设计128核服务器处理器平台

俄罗斯Roselectronics为超级计算机设计128核服务器处理器平台 目前“Basis”由三台通用服务器组成,每台服务器集成了 128 核处理器,并提供了高达 2TB 的 DRAM。服务器使用Angara高速通信网络互连,该网络也是由SRCEC开发的。数据传输通道允许高达 75 Gbps 的速度,最小通信延迟仅为 1 微秒。这种设置确保了服务器之间的超低延迟和高速数据交换,促进了整个集群的高效计算操作。Basis还能够进一步扩展到数百个节点,并支持创建数千个虚拟工作场景。根据该报告,Basis可用于设置数据处理和存储中心,虚拟化办公室以及图形应用程序的服务器。它在需要超级计算能力进行非常规计算的环境中特别有效。这使得它非常适合需要虚拟化工作空间的工程应用程序,并对 3D 图形处理提供强大的支持。“新的软件和硬件综合体的应用范围非常广泛。例如,我们的技术可以轻松处理创建虚拟化工程工作场所的任务,并支持 3D 图形的硬件处理。高数据传输容量和灵活的扩展系统允许执行最复杂的计算操作。我们的专家已准备好根据特定任务和客户需求计算和调整我们的新 SHC。”SRCEC 首席执行官 Ruslan Dzeitov 说道。但是,目前Roselectronics面临的最大的问题时,如何生产这种128核处理器(也可能是两个64核处理器),因为它将是一块相当大的硅片,或者是多个小芯片。虽然俄罗斯拥有自己的半导体生产能力,但仍停留在65纳米级,而该国的芯片制造商在适当的经济效率下所能做的最好的芯片也只是微控制器,而非复杂的高性能芯片。因此,对于 128 核的数据中心级处理器,Roselektrica 公司将不得不询问外国合作伙伴。鉴于台湾的代工厂因制裁而被排除在其选择之外(例如台积电、先锋等),俄罗斯生产这种CPU的唯一方法是寻求中国的晶圆代工厂提供服务,但是由于美国制裁的影响,中国厂商对此也是十分的谨慎,目前没有迹象表明有中国的晶圆代工厂有为俄罗斯客户代工芯片。 ... PC版: 手机版:

封面图片

首款GH200主机开卖:售价47500欧元起 专为AI而生

首款GH200主机开卖:售价47500欧元起 专为AI而生 在定位上,它显然不合适为游戏和传统工作站而设计的,更准确点的定位,应该是主打本地运行大语言模型的AI工作站。这款主机配备了480GB LPDDR5X内存,算上GH200中的96GB HBM3内存(甚至144GB HBMe),做到了576GB-624GB。售价上,96GB HBM3内存版本售价为47500欧元(约37万元人民币),现已可购买,其中144GB HBMe版本在2024年预计第二季度推出,售价为59500欧元(约46万人民币)。这款AI工作站的具体配置,搭载的NVIDIA GH200 Grace Hopper处理器拥有72个ARM内核(也有144核的版本),配有专用的NVIDIA H100加速器,因此配备了双2000W电源和超大容量存储,支持各种连接扩展选项(包括 NVIDIA Bluefield / Connect-X)。这款PC的散热系统使用的是猫头鹰风扇,附加组件,可选Nvidia Bluefield-3和ConnectX-7网卡、8TB SSD、30TB HDD、鼠标和键盘,甚至还有RTX 4060。在性能上,这家德国公司声称这台AI工作站可以提供67 teraFLOPS FP64、989 teraFLOPS TF32、1979 teraFLOPS FP16、3958 teraFLOPS FP8、3958 TOPS INT8的计算性能。在Emerald Rapids、Bergamo这类软件的23项测试中,给出的结论是,GH200 Grace CPU的性能可以Intel至强铂金8592+ Emerald Rapids处理器相媲美。 ... PC版: 手机版:

封面图片

联想发布ThinkPad P1 Gen 7移动工作站:酷睿Ultra+RTX Ada工作站显卡

联想发布ThinkPad P1 Gen 7移动工作站:酷睿Ultra+RTX Ada工作站显卡 整体尺寸为354.40 x 241.20 x 17.05 mm,重量控制在约1.82kg,对于一款配备独立显卡的16英寸笔记本电脑来说,堪称纤薄轻巧。在硬件配置上,ThinkPad P1 Gen 7可谓是诚意满满,它最高可选配英特尔酷睿Ultra 9 185H处理器,拥有6P+8E+2LPE共16核心22线程,最高睿频达到惊人的5.1 GHz,L3缓存为24MB,内置锐炬显卡和NPU,为AI算力提供强大支持。此外,该工作站还最高可选配RTX 3000 Ada工作站显卡,基于Ada Lovelace架构,拥有4608个CUDA核心和8GB的GDDR6显存,为用户带来流畅且逼真的图形处理体验。在显示方面,ThinkPad P1 Gen 7同样表现出色。它最高可选配16英寸的触控OLED屏幕,屏占比高达92%,UHD+分辨率,为用户带来清晰细腻的视觉享受。同时,用户也可以选择QHD+@165Hz的IPS屏幕,满足不同的使用需求。在存储和扩展性方面,ThinkPad P1 Gen 7同样表现出色。它配有双2280 M.2插槽,均为PCIe 4.0 x4通道,最高支持8TB SSD,满足用户大容量存储的需求。同时,它还搭载了90Whr大容量电池,并配有135/170W电源适配器,确保长时间使用的续航能力。值得一提的是,ThinkPad P1 Gen 7与美光合作,成为世界上首款配备LPCAMM2 LPDDR5x内存的移动工作站。这种内存解决方案不仅提供了最快的节能模块化内存性能,而且最高可达64GB,速率为7467MT/s。与SO-DIMM的DDR5相比,LPCAMM2 LPDDR5x的功耗降低了61%,节省了64%的空间,通过单个模块提供了更高的带宽和双通道支持,是移动工作站和AI PC工作负载的理想高性能内存解决方案。在接口配置方面,ThinkPad P1 Gen 7同样考虑周到。它提供了雷电4、USB-C(10Gbps)、USB-A(5Gbps)、HDMI 2.1、SD读卡器和3.5mm耳机插孔等多种接口,满足用户多样化的连接需求。 ... PC版: 手机版:

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人