加州大学河滨分校研究人员通过软件调整消除瓶颈 将计算机处理速度提升一倍

加州大学河滨分校研究人员通过软件调整消除瓶颈 将计算机处理速度提升一倍 从智能手机和个人电脑到数据中心服务器,大多数现代计算机都包含用于人工智能和机器学习的图形处理器(GPU)和硬件加速器。著名的商业案例包括NVIDIA GPU 上的张量核心(Tensor Cores)、Google云服务器上的张量处理单元(TPU)、苹果 iPhone 上的神经引擎(Neural Engines)以及Google Pixel 手机上的边缘 TPU。这些组件各自处理信息,将信息从一个处理单元转移到下一个处理单元时往往会造成数据流的瓶颈。在一项新的研究中,加州大学河滨分校(UCR)的研究人员展示了一种方法,让现有的不同组件同时运行,从而大大提高处理速度并降低能耗。加州大学洛杉矶分校电气与计算机工程系副教授、该研究的共同第一作者曾宏伟说:"不必增加新的处理器,因为你已经拥有了它们。"研究人员的框架被称为同步异构多线程(SHMT),它摒弃了传统的编程模式,即只能将代码区域专门委托给一种处理器,而让其他资源闲置,不为当前功能做贡献。相反,SHMT 利用了多个组件的多样性或异质性,将计算功能拆分开来,让它们共享。换句话说,这是一种并行处理。比较 (a) 传统异构计算机、(b) 带有软件流水线的传统异构计算机和 (c) SHMT 执行功能的方式 图/Hsu 和 Tseng工作原理您可以跳过这部分内容,但对于计算机科学爱好者来说,下面是有关 SHMT 工作原理的概述(仍然非常基础)。一组虚拟操作(VOPs)允许 CPU 程序将功能"卸载"到虚拟硬件设备上。在程序执行过程中,运行时系统会驱动 SHMT 的虚拟硬件,衡量硬件资源的能力以做出调度决策。SHMT 采用质量感知工作抢占(QAWS)调度策略,不会占用资源,但有助于保持质量控制和工作负载平衡。运行时系统将 VOP 分成一个或多个高级操作 (HLOP),以便同时使用多个硬件资源。然后,SHMT 的运行时系统将这些 HLOP 分配到目标硬件的任务队列中。由于 HLOP 与硬件无关,运行时系统可以根据需要调整任务分配。原型测试和结果为了测试这一概念,研究人员构建了一个系统,该系统采用的芯片和处理能力可以在任何像样的后期型号智能手机中找到,并做了一些调整,这样他们还可以测试该系统在数据中心中的功能。SHMT 原型平台具体来说,他们使用NVIDIA的Jetson Nano模块定制了一个嵌入式系统平台,该模块包含一个四核 ARM Cortex-A57 处理器(CPU)和 128 个 Maxwell 架构 GPU 内核。Google Edge TPU 通过其 M.2 Key E 插槽与系统相连。中央处理器、图形处理器和 TPU 通过板载 PCIe 接口交换数据,PCIe 接口是主板组件(如图形卡、内存和存储设备)的标准化接口。系统的主内存(4 GB 64 位 LPDDR4,1,600 MHz,25.6 GB/s)托管共享数据。Edge TPU 还包含一个 8 MB 的设备内存,并使用 Ubuntu Linux 18.04 作为操作系统。使用基准应用程序对 SHMT 概念进行了测试后发现,采用性能最佳的 QAWS 策略的框架将其发挥得淋漓尽致,与基准方法相比,速度提高了 1.95 倍,能耗显著降低了 51%。采用不同调度策略的 SHMT 速度提升(相对于基准 GPU)这一切意味着什么?研究人员说,这对 SHMT 的影响是巨大的。现有手机、平板电脑、台式机和笔记本电脑上的软件应用程序可以利用这个新的软件库实现一些相当惊人的性能提升。但它也能减少对昂贵的高性能组件的需求,从而带来更便宜、更高效的设备。由于这种方法可以减少能源消耗,进而降低制冷需求,因此可以优化数据中心的两个关键项目,同时还能减少碳排放和用水量。能源消耗和能源延迟产品 图/加州大学河滨分校与往常一样,我们还需要对系统的实施、硬件支持以及哪类应用最受益等方面进行进一步的研究,但有了这些成果,我们相信该团队在吸引资源将其推广开来方面不会遇到什么困难。这项研究在第 56 届 IEEE/ACM 微体系结构国际研讨会MICRO 2023 上发表。 ... PC版: 手机版:

相关推荐

封面图片

《计算机一级考试资料》|简介:《计算机一级考试资料》是备考计算机一级考试的得力助手。它包含了详细的计算机基础知识讲解,如计算机的

《计算机一级考试资料》|简介:《计算机一级考试资料》是备考计算机一级考试的得力助手。它包含了详细的计算机基础知识讲解,如计算机的硬件组成、操作系统的基本功能和操作方法、办公软件的初步应用等内容。在硬件部分,对 CPU、内存、硬盘等核心部件的原理和性能指标进行了深入浅出的介绍;操作系统章节则涵盖了 Windows 系统的安装、设置、文件管理和用户管理等实用操作;办公软件方面,重点讲解了 Word 的文档编辑、格式设置,Excel 的表格制作、数据处理和函数应用,PowerPoint 的演示文稿创建和动画效果设置等。资料中还配有大量的实例演示和练习题,通过实际操作和练习,帮助考生熟悉考试题型和操作流程,提高应试能力,顺利通过计算机一级考试。|标签:#计算机一级考试资料#计算机考试#备考资料|文件大小:NG|链接:

封面图片

谷歌科学家发布:量子计算机取得重大突破

谷歌科学家发布:量子计算机取得重大突破 谷歌科学家最近在ArXiv平台上发布了一篇预印本论文,声称在量子计算机领域取得了重大突破。他们表示,通过对Sycamore处理器的升级,谷歌成功提升了量子位的数量,从之前的53个增加到了70个。 这次实验中,谷歌科学家们执行了一项名为随机电路采样的任务,这个任务在量子计算中用于评估计算机的性能和效率。通过运行随机电路并分析结果输出,科学家们测试了量子计算机在解决复杂问题方面的能力。 谷歌的研究结果显示,升级后的70个量子位的Sycamore处理器在执行随机电路采样任务上比业内最先进的超级计算机快了几十亿倍。例如,需要业内最先进超级计算机Frontier计算47.2年才能完成的任务,53个量子位的Sycamore处理器只需要6.18秒就能完成,而新版的70个量子位的Sycamore处理器速度更快。来源 ,, 来自:雷锋 频道:@kejiqu 群组:@kejiquchat 投稿:@kejiqubot

封面图片

NASA 超级计算机已落后:拖累任务进度,亟需升级换代

NASA 超级计算机已落后:拖累任务进度,亟需升级换代 报告指出,NASA 的超级计算机仍然主要依赖于 CPU 中央处理器,例如其旗舰超级计算机之一,竟拥有 18000 个 CPU,但仅有 48 个 GPU 图形处理器。要知道,GPU 在并行处理任务(科学模拟和建模中非常常见)方面能提供远超 CPU 的计算能力。

封面图片

《03.组成原理》简介:《03.组成原理》全面介绍计算机组成原理,涵盖计算机硬件系统的各个组成部分,如运算器、控制器、存储器等。

《03.组成原理》 简介:《03.组成原理》全面介绍计算机组成原理,涵盖计算机硬件系统的各个组成部分,如运算器、控制器、存储器等。课程详细讲解这些部件的工作原理、相互关系以及计算机的指令系统和工作流程,帮助学习者理解计算机的底层运行机制,为学习操作系统、计算机网络等课程以及从事计算机硬件相关工作打下坚实的理论基础 标签: #计算机组成原理 #硬件系统 #指令系统 #底层机制 文件大小:NG 链接:

封面图片

戴尔解释如何检查Windows 11计算机是否"支持AI"

戴尔解释如何检查Windows 11计算机是否"支持AI" 据戴尔公司称,用于更高效地处理基于人工智能的任务的专用硬件和软件可以让你的电脑"启用人工智能"。虽然传统计算机也可以使用人工智能,但专用硬件加速器可以优化处理过程,降低能耗。这种"专用硬件"被称为 NPU 或神经处理单元:NPU 经过优化,可处理深度学习算法所需的复杂计算。这种优化使 NPU 在处理人工智能任务(如自然语言处理、图像分析等)时具有惊人的效率。NPU 集成在 CPU 中,衡量 NPU 性能的一个标准是每秒 Tera 运算次数(TOPs)。Windows 11 需要一个专用的 NPU 来处理 Windows Studio 特效,其中包括背景模糊、眼部接触校正、自动取景和语音对焦。不过,得益于 Windows 11 最近的改进,Voice Clarity很快就能在所有系统上使用。电脑还需要一个 NPU 来处理即将推出的下一代 Windows 11 功能,例如传闻中的 AI Explorer。在效率方面,戴尔表示,搭载英特尔最新酷睿Ultra处理器的电脑通过将自动成帧、背景模糊和眼球跟踪功能从 CPU 卸载到 NPU,在 Zoom 通话期间最多可节省 38% 的电池。采用英特尔第 14 代处理器、AMD Ryzen 7000 和8000 系列以及高通公司 Snapdragon 8cx Gen2 或Snapdragon X Elite及更新处理器的电脑中都有专用神经处理单元。要检查您的电脑是否有 NPU,可以启动任务管理器并转到"性能"选项卡。受支持的电脑在 CPU、内存、存储、网络和 GPU 旁边会显示"NPU 0"。或者,进入设备管理器,查找 Intel AI Boost(在 Intel 系统上)或 AMD IPU Device(在 AMD 系统上)。如果看不到这些设备,则可能需要从制造商网站下载驱动程序。采用高通芯片的电脑已预装 NPU 驱动程序,可通过 Windows Update 下载。你可以在戴尔的官方网站上找到更多关于"AI-enabled"PC 的信息。有趣的是,英特尔最近也发布了类似的信息,确认如果电脑拥有 NPU 和带有专用物理按键的 Copilot,那么它就有资格成为"AI PC"。 ... PC版: 手机版:

封面图片

中国研究人员报告能用现有量子计算机破解 2048 位 RSA

中国研究人员报告能用现有量子计算机破解 2048 位 RSA 清华和浙大等中国研究人员在预印本平台上发表,报告破解 2048 位 RSA 密钥所需的量子比特数可以大幅减少,现有的量子计算机就能做到。研究人员称,Peter Shor 早在 1990 年代就发现用量子计算机进行大数的因式分解是很容易的,但所需的量子比特数需要多达数百万,现有技术还制造不出此类规模的量子计算机。今天最先进的量子计算机只有数百个量子比特如 IBM 的 Osprey 有 433 个量子比特。中国研究人员提出了一种优化方法,将所需的量子比特数减少到 372 个量子比特这是现有技术能做到的,虽然中国还没有如此先进的量子计算机。知名加密学专家 Bruce Schneier 在其博客上指出,中国研究人员提出的优化方法是基于 Peter Schnorr 最近发表的一篇受争议论文,Schnorr 的算法在较大的系统上崩溃了,所以中国的方法是否成功还是未知,但至少 IBM 的研究人员可以测试下了。 来源 , 来自:雷锋 频道:@kejiqu 群组:@kejiquchat 投稿:@kejiqubot

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人