加州大学河滨分校研究人员通过软件调整消除瓶颈 将计算机处理速度提升一倍

加州大学河滨分校研究人员通过软件调整消除瓶颈将计算机处理速度提升一倍从智能手机和个人电脑到数据中心服务器,大多数现代计算机都包含用于人工智能和机器学习的图形处理器(GPU)和硬件加速器。著名的商业案例包括NVIDIAGPU上的张量核心(TensorCores)、Google云服务器上的张量处理单元(TPU)、苹果iPhone上的神经引擎(NeuralEngines)以及GooglePixel手机上的边缘TPU。这些组件各自处理信息,将信息从一个处理单元转移到下一个处理单元时往往会造成数据流的瓶颈。在一项新的研究中,加州大学河滨分校(UCR)的研究人员展示了一种方法,让现有的不同组件同时运行,从而大大提高处理速度并降低能耗。加州大学洛杉矶分校电气与计算机工程系副教授、该研究的共同第一作者曾宏伟说:"不必增加新的处理器,因为你已经拥有了它们。"研究人员的框架被称为同步异构多线程(SHMT),它摒弃了传统的编程模式,即只能将代码区域专门委托给一种处理器,而让其他资源闲置,不为当前功能做贡献。相反,SHMT利用了多个组件的多样性或异质性,将计算功能拆分开来,让它们共享。换句话说,这是一种并行处理。比较(a)传统异构计算机、(b)带有软件流水线的传统异构计算机和(c)SHMT执行功能的方式图/Hsu和Tseng工作原理您可以跳过这部分内容,但对于计算机科学爱好者来说,下面是有关SHMT工作原理的概述(仍然非常基础)。一组虚拟操作(VOPs)允许CPU程序将功能"卸载"到虚拟硬件设备上。在程序执行过程中,运行时系统会驱动SHMT的虚拟硬件,衡量硬件资源的能力以做出调度决策。SHMT采用质量感知工作抢占(QAWS)调度策略,不会占用资源,但有助于保持质量控制和工作负载平衡。运行时系统将VOP分成一个或多个高级操作(HLOP),以便同时使用多个硬件资源。然后,SHMT的运行时系统将这些HLOP分配到目标硬件的任务队列中。由于HLOP与硬件无关,运行时系统可以根据需要调整任务分配。原型测试和结果为了测试这一概念,研究人员构建了一个系统,该系统采用的芯片和处理能力可以在任何像样的后期型号智能手机中找到,并做了一些调整,这样他们还可以测试该系统在数据中心中的功能。SHMT原型平台具体来说,他们使用NVIDIA的JetsonNano模块定制了一个嵌入式系统平台,该模块包含一个四核ARMCortex-A57处理器(CPU)和128个Maxwell架构GPU内核。GoogleEdgeTPU通过其M.2KeyE插槽与系统相连。中央处理器、图形处理器和TPU通过板载PCIe接口交换数据,PCIe接口是主板组件(如图形卡、内存和存储设备)的标准化接口。系统的主内存(4GB64位LPDDR4,1,600MHz,25.6GB/s)托管共享数据。EdgeTPU还包含一个8MB的设备内存,并使用UbuntuLinux18.04作为操作系统。使用基准应用程序对SHMT概念进行了测试后发现,采用性能最佳的QAWS策略的框架将其发挥得淋漓尽致,与基准方法相比,速度提高了1.95倍,能耗显著降低了51%。采用不同调度策略的SHMT速度提升(相对于基准GPU)这一切意味着什么?研究人员说,这对SHMT的影响是巨大的。现有手机、平板电脑、台式机和笔记本电脑上的软件应用程序可以利用这个新的软件库实现一些相当惊人的性能提升。但它也能减少对昂贵的高性能组件的需求,从而带来更便宜、更高效的设备。由于这种方法可以减少能源消耗,进而降低制冷需求,因此可以优化数据中心的两个关键项目,同时还能减少碳排放和用水量。能源消耗和能源延迟产品图/加州大学河滨分校与往常一样,我们还需要对系统的实施、硬件支持以及哪类应用最受益等方面进行进一步的研究,但有了这些成果,我们相信该团队在吸引资源将其推广开来方面不会遇到什么困难。这项研究在第56届IEEE/ACM微体系结构国际研讨会MICRO2023上发表。...PC版:https://www.cnbeta.com.tw/articles/soft/1420279.htm手机版:https://m.cnbeta.com.tw/view/1420279.htm

相关推荐

封面图片

谷歌科学家发布:量子计算机取得重大突破

谷歌科学家发布:量子计算机取得重大突破谷歌科学家最近在ArXiv平台上发布了一篇预印本论文,声称在量子计算机领域取得了重大突破。他们表示,通过对Sycamore处理器的升级,谷歌成功提升了量子位的数量,从之前的53个增加到了70个。这次实验中,谷歌科学家们执行了一项名为随机电路采样的任务,这个任务在量子计算中用于评估计算机的性能和效率。通过运行随机电路并分析结果输出,科学家们测试了量子计算机在解决复杂问题方面的能力。谷歌的研究结果显示,升级后的70个量子位的Sycamore处理器在执行随机电路采样任务上比业内最先进的超级计算机快了几十亿倍。例如,需要业内最先进超级计算机Frontier计算47.2年才能完成的任务,53个量子位的Sycamore处理器只需要6.18秒就能完成,而新版的70个量子位的Sycamore处理器速度更快。来源,,来自:雷锋频道:@kejiqu群组:@kejiquchat投稿:@kejiqubot

封面图片

计算机系统要素:从零开始构建现代计算机-尼萨

资源名称:计算机系统要素:从零开始构建现代计算机-尼萨描述:本书通过展现简单但功能强大的计算机系统之构建过程,为读者呈现了一幅完整、严格的计算机应用科学大图景。通过12个章节和项目来引领读者从头开始,本书逐步地构建一个基本的硬件平台和现代软件阶层体系。在这个过程中,读者能够获得关于硬件体系结构、操作系统、编程语言、编译器、数据结构、算法以及软件工程的详实知识。通过这种逐步构造的方法,本书揭示了计算机科学知识中的重要成分,并展示其它课程中所介绍的理论和应用技术如何融入这幅全局大图景当中去。链接/小白羊:我用阿里云盘分享了「[计算机系统要素:从零开...萨).周维.扫描版.pdf」,你可以不限速下载复制这段内容打开「阿里云盘」App即可获取链接:https://www.aliyundrive.com/s/J9MJCr9KqVm

封面图片

IBM公布具有433个量子比特的Osprey量子计算机

IBM公布具有433个量子比特的Osprey量子计算机"新的433量子比特'Osprey'处理器使我们离量子计算机用于解决以前无法解决的问题更近了一步,"IBM高级副总裁兼研究部主任达里奥-吉尔说。"我们正在不断扩大和推进我们的量子技术,包括硬件、软件和经典集成,与我们的合作伙伴和世界各地的客户一起迎接我们时代的最大挑战。这项工作将证明对即将到来的以量子为中心的超级计算时代具有基础意义。"IBM的量子路线图包括另外两个阶段--2023年和2024年的1121量子比特的Condor和1386量子比特的Flamingo处理器--然后它计划在2025年用其Kookaburra处理器进入4000量子比特阶段。到目前为止,该公司总体上能够实现这一路线图,但量子处理器中的量子比特数量显然只是一个非常大而复杂的难题的一部分,更长的相干时间和减少噪音也同样重要。理想情况下,想要使用这些机器的开发者不必担心这个问题,所以他们使用的工具越来越多地为他们抽象出硬件问题。例如,通过新版本的QiskitRuntime,开发者现在可以用速度换取更少的错误数。该公司今天还详细介绍了其QuantumSystemTwo,可以被看成是对外服务的IBM量子主机,它将能够容纳多个量子处理器,并将它们与高速通信链接整合到一个系统中,预计IBM将于2023年底前推出这个系统。...PC版:https://www.cnbeta.com.tw/articles/soft/1332303.htm手机版:https://m.cnbeta.com.tw/view/1332303.htm

封面图片

欧盟推出首台ExaFlop超级计算机 采用ARM与NVIDIA的架构

欧盟推出首台ExaFlop超级计算机采用ARM与NVIDIA的架构超级计算机"Jupiter"的总预算为2.73亿欧元。开发工作由欧洲高性能计算联合企业(EuropeanHigh-PerformanceComputingJointUndertaking)以及由Eviden和ParTec组成的科技公司集团负责。ARM超级计算机在业界的存在感一直很低,前十大超级计算机中只有一台采用了该架构。Jupiter超级计算机将加入这一行列,因为据说它将采用SiPearl的Rhea处理器,该处理器是与欧盟的资金和专业技术合作专门打造的。虽然我们还没有看到明确的性能数据,如各自的petaflops,但我们知道Jupiter配备了最新的技术。SiPearl基于ARM的处理器"堆叠"了NeoverseV1CPU,并采用了通用兼容的设计,以获得更广泛的应用。性能数据尚未披露,但NeoverseN1CPU足以提供顶级计算性能,欧盟的木星超级计算机也将如此。至于图形处理能力,Jupiter超级计算机预计将采用英伟达公司的顶级H100,这是业界最顶尖的产品。加速器的性能不用多说,H100正在全球范围内热销,其背后的主要原因是它们具有极高的性价比,Jupiter将使用一系列H100AIGPU,提供出色的计算能力。JupiterexaFLOP超级计算机的出现表明,欧盟正在努力成为全球科技行业的"独立"参与者。这也是该超级计算机采用Rhea处理器的唯一原因,因为Rhea处理器是欧盟区域内企业自行开发的产品,是向完全技术自主迈出的一步。除"Jupiter"外,欧盟还在研制第二台基于法国的超大规模超级计算机预计将于2025年投入使用。欧盟生产的超级计算机在Top500排名中的表现将令人拭目以待,这将对了解它们的能力起到决定性作用。...PC版:https://www.cnbeta.com.tw/articles/soft/1388561.htm手机版:https://m.cnbeta.com.tw/view/1388561.htm

封面图片

AMD第四代EPYC + Instinct MI300A超级计算机正在巴伐利亚搭建

AMD第四代EPYC+InstinctMI300A超级计算机正在巴伐利亚搭建这台超级计算机将位于可爱的Garching镇,位于慕尼黑的郊区。CPU节点预计将在2023年第三季度交付,而带有GPU节点的全部安装预计将在2024年上半年完成。这台新的AMD超级计算机预计将比马克斯-普朗克协会目前的Cobra超级计算机强大三倍,后者由XeonGold6148Skylake处理器和NVIDIATeslaV100GPU构建。Cobra总共由3424个计算节点、128颗TeslaV100-32GPU和240颗QuadroRTX5000GPU组成,预计将在2024年啤酒节前完工上线。新的巴伐利亚AMD超级计算机预计将配合人工智能、天体物理学、生命科学研究、材料研究和等离子体物理学方面的研究。阿托斯公司的新闻稿指出,这台基于BullSequanaXH3000的新超级计算机将拥有768个处理器节点和192个加速器节点。...PC版:https://www.cnbeta.com.tw/articles/soft/1343513.htm手机版:https://m.cnbeta.com.tw/view/1343513.htm

封面图片

IBM计算机“基准”实验显示量子计算机将在两年内超越传统计算机

IBM计算机“基准”实验显示量子计算机将在两年内超越传统计算机这项新研究的成果发表在上周的《自然》杂志上。科学家们使用IBM量子计算机Eagle来模拟真实材料的磁性,处理速度比传统计算机更快。IBM量子计算机之所以能超越传统计算机,是因为其使用了一种特殊的误差缓解过程来补偿噪声带来的影响。而噪声正是量子计算机的一个基本弱点。基于硅芯片的传统计算机依赖于“比特(bit)”进行运算,但其只能取0或1这两个值。相比之下,量子计算机使用的量子比特可以同时呈现多种状态。量子比特依赖于量子叠加和量子纠缠等量子现象。理论上这使得量子比特的计算速度更快,而且可以真正实现并行计算。相比之下,传统计算机基于比特的计算速度很慢,而且需要按顺序依次进行。但从历史上看,量子计算机有一个致命的弱点:量子比特的量子态非常脆弱,来自外部环境的微小破坏也会永远扰乱它们的状态,从而干扰所携带的信息。这使得量子计算机非常容易出错或“出现噪声”。在这一新的原理验证实验中,127量子比特的Eagle超级计算机用建立在超导电路上的量子比特计算了二维固体的完整磁性状态。然后,研究人员仔细测量每个量子比特所产生的噪声。事实证明,诸如超级计算材料中的缺陷等因素可以可靠预测每个量子比特所产生的噪声。据报道,研究小组随后利用这些预测值来模拟生成没有噪音的结果。量子霸权的说法之前就出现过。2019年,谷歌的科学家们声称,公司开发的量子计算机Sycamore在200秒内解决了一个普通计算机需要1万年才能破解的问题。但谷歌量子计算机所解决的问题本质上就是生成一长串随机数,然后检查它们的准确性,并没有什么实际用途。相比之下,用IBM量子计算机完成的新实验是一个高度简化但有真实应用价值的物理问题。2019年谷歌量子霸权研究成果参与者之一、加州大学圣巴巴拉分校物理学家约翰·马丁尼斯(JohnMartinis)表示,“这能让人们乐观认为,它将在其他系统和更复杂的算法中发挥作用。”(辰辰)...PC版:https://www.cnbeta.com.tw/articles/soft/1366285.htm手机版:https://m.cnbeta.com.tw/view/1366285.htm

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人