评估认为NASA的超级计算机严重落后 拥有18000颗CPU却只搭配48颗GPU

评估认为NASA的超级计算机严重落后 拥有18000颗CPU却只搭配48颗GPU 目前,NASA拥有五台超算,安放在加州艾莫斯的NASA先进超算中心(NAS)、马里兰州戈达德的NASA气候模拟中心(NCCS)。性能最好的是Aitken,性能也只有13.12PFlops(每秒1.312亿亿次浮点计算),美国重返月球项目用的就是它。还有Electra 8.32PFlops、Discover 8.1PFlops、Pleiades 7.09PFlops、Endeavour 15.48TFlops。这些超算不但性能平平,而且架构技术都不算先进,仍然几乎完全依赖传统CPU处理器。NAS拥有总计超过18000颗GPU,却只有48颗GPU,NCSS部署的GPU更少。NASA在报告中称,超算基础设置的严重落伍,严重影响了NASA的项目进展,而且管理方式落后,利用效率低下,还存在很多安全隐患,因此强烈建议转向GPU为主的新型超算。两个字总结:打钱! ... PC版: 手机版:

相关推荐

封面图片

NASA 超级计算机已落后:拖累任务进度,亟需升级换代

NASA 超级计算机已落后:拖累任务进度,亟需升级换代 报告指出,NASA 的超级计算机仍然主要依赖于 CPU 中央处理器,例如其旗舰超级计算机之一,竟拥有 18000 个 CPU,但仅有 48 个 GPU 图形处理器。要知道,GPU 在并行处理任务(科学模拟和建模中非常常见)方面能提供远超 CPU 的计算能力。

封面图片

NASA 的任务因超级计算机短缺而被推迟

NASA 的任务因超级计算机短缺而被推迟 美国宇航局(NASA)的超级计算能力未能跟上最新技术发展的步伐,并且“超额认购和负担过重”,导致任务延迟,有时需要由团队购买自己的基础设施来解决。 NASA 内部审计机构监察长办公室发布的审计报告称“NASA 需要新的承诺和持续的领导关注,以重振其高端计算工作。如果不做出重大改变,该机构的高端计算可能会限制未来的任务优先事项和目标。” NASA 当前的超级计算设施存在超额分配、超负荷使用和过时的问题。例如,NASA 的“先进超级计算设施”只有 48 个 GPU 和 18,000 个 CPU。而 SLS 团队每年花费25万美元购买独立计算资源,而不是等待现有的资源可用。

封面图片

AMD将搭建由120万颗GPU驱动的全球最强AI超级计算机

AMD将搭建由120万颗GPU驱动的全球最强AI超级计算机 AMD 数据中心解决方案总经理 Forrest Norrod 在接受The Next Platform 采访时透露,他们收到了客户关于使用 120 万个 GPU 构建人工智能训练集群的真实询问。从这个角度来看,目前的人工智能训练集群通常使用数千个 GPU,通过高速互连连接到多个本地服务器机架上。目前正在考虑的人工智能开发规模是前所未有的。诺罗德说:"正在筹建的一些训练集群确实强大得令人匪夷所思。事实上,目前已知用于训练人工智能模型的最大超级计算机是Frontier,它拥有37888个Radeon GPU,这使得AMD潜在的超级计算机比Frontier强大30倍。"当然,事情没那么简单。即使以目前的功率水平,在创建人工智能训练集群时也有大量隐患需要考虑。人工智能训练需要较低的延迟来提供及时的结果,需要消耗大量的电能,而且必须考虑到硬件故障,即使只有几千个 GPU 也不例外。大多数服务器的利用率在20%左右,并在远程机器上处理数千个小型异步作业。然而,人工智能培训的兴起正在导致服务器结构发生重大变化。为了跟上机器学习模型和算法的发展,人工智能数据中心必须配备专门为这项工作设计的大量计算能力。人工智能训练本质上是一项大型同步作业,需要集群中的每个节点尽可能快地来回传递信息。最有趣的是,这些数据来自 AMD,而 AMD 在 2023 年的数据中心 GPU 出货量中只占不到 2%。而占据另外 98% 市场份额的 NVIDIA 则对客户要求其开发的产品守口如瓶。作为市场领导者,我们只能想象他们正在开发什么。虽然拟议中的 120 万 GPU 超级计算机可能看起来有些离谱,但诺罗德称,"非常清醒的人"正在考虑在人工智能训练集群上花费多达千亿美元。这并不令人震惊,因为在过去几年里,人工智能在科技界的发展可谓突飞猛进。看来,企业已经准备好在人工智能和机器学习上投入巨资,以保持竞争力。 ... PC版: 手机版:

封面图片

印度将开发建造内置10000颗GPU的超级计算机 用于建立该国AI生态系统

印度将开发建造内置10000颗GPU的超级计算机 用于建立该国AI生态系统 印度总理纳伦德拉-莫迪(Shri Narendra Modi)领导的印度政府已批准为印度人工智能计划(IndiaAI mission)投资 12.4 亿美元,这是一项旨在从零开始创建全印度人工智能生态系统的"国家级"计划。拟议资金的大部分可能将分配用于建立一个新的、功能强大的高性能计算(HPC)系统,该系统将成为印度公共和私营部门的中央人工智能基础设施。印度电子与信息技术部解释说,IndiaAI 的超级计算机预计将配备 10,000 个"或更多"GPU 作为人工智能加速器,并将通过公私合作伙伴关系进行开发。虽然没有提供更多技术规格,但该高性能计算系统旨在为印度新兴人工智能生态系统中的初创公司和研究机构提供支持。IndiaAI 任务的另一个组成部分是 IndiaAI 创新中心,其任务是开发和部署本地大型多模态模型(LMM)和特定领域的基础模型。印度共有 23 种官方语言,预计将受益于本地开发的模型,为该国丰富的语言遗产提供支持。IndiaAI 还将通过 IndiaAI 数据集平台建立本地数据集,通过统一的数据平台提供对"非个人"高质量数据库的简化访问。通过 IndiaAI FutureSkills 计划,新德里旨在为日益增长的人工智能就业市场培养新的技术工人。该计划旨在加强对研究生和研究生人工智能项目的访问,并在全国各地新建"数据和人工智能实验室",提供基础模型课程。印度还打算通过 IndiaAI 初创企业融资计划支持初创企业,促进人工智能私营部门的发展,并在理想情况下催生"未来派"人工智能项目。此外,IndiaAI 还将通过本土软件框架、政府指导方针和适当的防护措施,重点发展安全、"负责任"的人工智能计划,以防止非法数据利用或侵犯隐私。印度政府将 IndiaAI 视为一项变革性任务,它将在多个层面发挥作用,增强国内的人工智能能力,并为技术人才创造新的就业机会。莫迪政府还希望向世界证明,机器学习技术可以用于社会公益,而不是像 OpenAI 的 ChatGPT 和其他商业人工智能服务那样以利润为中心。 ... PC版: 手机版:

封面图片

黄仁勋抛出2700W功耗的真核弹 还有240TB显存的AI超级计算机

黄仁勋抛出2700W功耗的真核弹 还有240TB显存的AI超级计算机 Blackwell B200 GPU首次采用了chiplet晶粒封装,包含两颗B100,而B200之间再通过带宽翻倍达1.8TB/s的第五代NVLink 5总线互连,最多可连接576块。B100采用专门定制的台积电4NP工艺制造(H100/RTX 40 4N工艺的增强版),已经达到双倍光刻极限尺寸,彼此通过10TB/s带宽的片间互联带宽,连接成一块统一的B200 GPU。B100集成多达1040亿个晶体管,比上代H100 800亿个增加了足足30%,B200整体就是2080亿个晶体管。核心面积未公布,考虑到工艺极限应该不会比814平方毫米的H100大太多。CUDA核心数量也没说,但肯定会大大超过H100 16896个,不知道能不能突破2万个?每颗B100连接四颗24GB HBM3E显存/内存,等效频率8GHz,位宽4096-bit,带宽达4TB/s。如此一来,B200就有多达192GB HBM3E,总位宽8096-bit,总带宽8TB/s,相比H100分别增加1.4倍、58%、1.4倍。性能方面,B200新增支持FP4 Tensor数据格式,性能达到9PFlops(每秒9千万亿次),INT/FP8、FP16、TF32 Tensor性能分别达到4.5、2.25、1.1PFlops,分别提升1.2倍、1.3倍、1.3倍,但是FP64 Tensor性能反而下降了40%(依赖GB200),FP32、FP64 Vector性能则未公布。Blackwell GPU还支持第二代Transformer引擎,支持全新的微张量缩放,在搭配TensorRT-LLM、NeMo Megatron框架中的先进动态范围管理算法,从而在新型4位浮点AI推理能力下实现算力和模型大小的翻倍。其他还有RAS可靠性专用引擎、安全AI、解压缩引擎等。至于功耗,B100控制在700W,和上代H100完全一致,B200则首次达到了1000W。NVIDIA宣称,Blackwell GPU能够在10万亿参数的大模型上实现AI训练和实时大语言模型推理。GB200 Grace Blackwell是继Grace Hopper之后的新一代超级芯片(Superchip),从单颗GPU+单颗CPU升级为两颗GPU加一颗CPU,其中GPU部分就是B200,CPU部分不变还是Grace,彼此通过900GB/s的带宽实现超低功耗片间互联。在大语言模型推理工作负载方面,GB200超级芯片的性能对比H100提升了多达30倍。不过代价也很大,GB200的功耗最高可达2700W,可以使用分冷,更推荐使用液冷。基于GB200超级芯片,NVIDIA打造了新一代的AI超级计算机“DGX SuperPOD”,配备36块超级芯片,也就是包含36颗Grace CPU、72颗B200 GPU,彼此通过NVLink 5组合在一起,还有多达240TB HBM3E。这台AI超级计算机可以处理万亿参数的大模型,能保证超大规模生成式AI训练和推理工作负载的持续运行,FP4精度下的性能高达11.5EFlops(每秒1150亿亿次)。DGX SuperPOD还具有极强的扩展性,可通过Quantum-X800 InfiniBand网络连接,扩展到数万颗GB200超级芯片,并加入BlueField-3 DPU数据处理单元,而每颗GPU都能获得1.8TB/s的高带宽。第四代可扩展分层聚合和规约协议(SHARP)技术,可提供14.4TFlops的网络计算能力,比上代提升4倍。此外,NVIDIA还发布了第六代通用AI超级计算平台“DGX B200”,包含两颗Intel五代至强处理器、八颗B200 GPU,具备1.4TB HBM3E、64TB/s带宽,FP4精度性能144PFlops(每秒14亿亿次),万亿参数模型实时推理速度提升15倍。DGX B200系统还集成八个NVIDIA ConnectX-7网卡、两个BlueField-3 DPU高性能网络,每个连接带宽高达400Gb/s,可通过Quantum-2 InfiniBand、Spectrum?-X以太网网络平台,扩展支持更高的AI性能。基于Blackwell GPU的产品将在今年晚些时候陆续上市,亚马逊云、戴尔、谷歌、Meta、微软、OpenAI、甲骨文、特斯拉、xAI等都会采纳。亚马逊云、谷歌云、微软Azeure、甲骨文云将是首批提供Blackwell GPU驱动实例的云服务提供商,NVIDIA云合作伙伴计划的中的Applied Digital、CoreWeave、Crusoe、IBM Cloud、Lambda也将提供上述服务。Indosat Ooredoo Hutchinson、Nebius、Nexgen Cloud、甲骨文欧盟主权云、甲骨文美国/英国/澳大利亚政府云、Scaleway、新加坡电信、Northern Data Group旗下的Taiga Cloud、Yotta Data Services旗下的Shakti Cloud、YTL Power International 等主权AI云,也将提供基于Blackwell架构的云服务和基础设施。 ... PC版: 手机版:

封面图片

美国拍卖退役超级计算机 起价仅2500美元 曾经全球第20

美国拍卖退役超级计算机 起价仅2500美元 曾经全球第20 这套超算位于美国怀俄明州夏延市的国家大气研究中心超算中心,2016年开始安装,2017年1月12日投用,2023年12月31日退役,七年的时间里为大气和地球系统科学研究做出了杰出贡献。服役期间,它运行了超过70亿核心小时,服务了4400多名用户,支持了近1300项美国国家科学基金会资助项目、80多门大学课程和培训活,产生了超过4500篇经同行评审的出版物、硕士/博士论文等。它共有4032个节点,每节点两颗Intel至强E5-2697 v4 2.3GHz 18核心处理器,共计145152个核心,还有313TB内存、40PB硬盘,能耗1.7兆瓦。峰值性能为5.34PFlops(5340万亿次浮点每秒),刚上线的时候高居全球第20位,而如今世界第一的Frontier峰值性能高达1.68EFlops(168亿亿次浮点每秒),共有8699904个核心,能耗22.7兆瓦。其实,“夏延”最初计划的使用年限只有五年,但因为新冠疫情导致供应链中断,被迫多干了两年。最终,散热系统出现问题,导致大约1%的节点存在内存ECC错误,而且停机时间和维修成本过高,只能退役并拍卖。目前已经有十多人对此超算感兴趣,并出价竞拍,但最高也只有27643美元,约合人民币20万元。 ... PC版: 手机版:

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人