IBM 研发出了一种突破冯·诺依曼瓶颈的计算机芯片

IBM研发出了一种突破冯·诺依曼瓶颈的计算机芯片传统的计算芯片每次计算时仍然需要使用称为RAM的外部存储器。这种在芯片间穿梭数据的方式会减慢速度,这种现象被称为“冯·诺依曼瓶颈”。IBM研发处一种名为“NorthPole”处理器芯片无需访问外部存储器,因此执行图像识别等任务的速度比现有架构更快,同时“它的能效简直令人难以置信”。NorthPole由256个计算单元组成,每个单元都有自己的内存,“在单元中缓解了冯·诺依曼瓶颈”。这些单元通过网络连接在一起,其灵感来自于人类大脑皮层各部分之间的白质连接。这种设计思路大部分以前就存在,但从未在一个芯片中结合过。研究人员说,这表明计算和内存可以大规模集成,“将撼动计算机体系结构的惯常思维”。来源,频道:@kejiqu群组:@kejiquchat

相关推荐

封面图片

IBM开发出NorthPole芯片 全新架构缓解冯-诺依曼计算瓶颈

IBM开发出NorthPole芯片全新架构缓解冯-诺依曼计算瓶颈IBM开发的NorthPole芯片将内存和处理功能结合在一起,大大改进了图像识别和其他计算任务。帕莱索巴黎-萨克雷大学的纳米电子学研究员达米安-奎尔利奥兹(DamienQuerlioz)说:"它的能效简直令人难以置信。发表在《科学》(Science)上的这项工作表明,计算和内存可以大规模集成。这篇论文将撼动计算机体系结构的惯常思维"。NorthPole运行神经网络:由简单计算单元组成的多层阵列,通过编程识别数据中的模式。底层接收数据,例如图像中的像素;每一层都能检测到复杂度不断增加的模式,并将信息传递给下一层。顶层产生输出,例如,可以表示图像中包含一只猫、一辆车或其他物体的可能性有多大。有些计算机芯片可以高效地处理这些计算,但每次计算一个层时,它们仍需要使用RAM。这种在芯片间穿梭数据的方式会减慢速度--这种现象被称为冯-诺依曼瓶颈(VonNeumannbottleneck),以数学家约翰-冯-诺依曼(JohnvonNeumann)命名。冯-诺依曼瓶颈是导致计算机应用(包括人工智能)速度减慢的最重要因素之一。它还导致能源效率低下。该研究的合著者、IBM公司的计算机工程师达门德拉-莫德哈(DharmendraModha)说,他曾经估计,在这种架构上模拟人脑可能需要相当于12个核反应堆的输出功率。NorthPole由256个计算单元或内核组成,每个单元或内核都有自己的内存。这在一个内核中就缓解了冯-诺依曼瓶颈。随后这些内核通过网络连接在一起,其灵感来自于人类大脑皮层各部分之间的白质连接。这种设计原则和其他设计原则--其中大部分以前就存在,但从未在一个芯片中结合过--使NorthPole能够在标准的图像识别基准测试中以相当大的优势击败现有的人工智能机器。尽管没有采用最新和最微型化的制造工艺,它的能耗也只有最先进人工智能芯片的五分之一。作者估计,如果NorthPole设计采用最新的制造工艺,其效率将比目前的设计高出25倍。但是,对于大型语言模型(如聊天机器人ChatGPT使用的语言模型)来说,即使NorthPole拥有224兆字节的内存也是不够的。而且该芯片只能运行预先编程的神经网络,这些网络需要事先在另一台机器上进行"训练"。但论文作者表示,NorthPole架构在速度要求极高的应用中可能非常有用,比如自动驾驶汽车。NorthPole使内存单元尽可能地接近核心中的计算元件。在其他领域,研究人员一直在利用新材料和制造工艺进行更激进的创新。这些技术使内存单元本身也能进行计算,原则上可以进一步提高速度和效率。上个月介绍的另一款芯片利用忆阻器(一种可以在电阻和导体之间切换的电路元件)进行内存计算。清华大学的高斌(BinGao)是忆阻器研究的共同作者,他说:"IBM和我们的两种方法都有望缩短延迟时间,降低数据传输的能耗成本。"另一种方法是由多个团队开发的,其中包括位于瑞士苏黎世的IBM实验室的一个团队,它通过改变电路元件的晶体结构来存储信息。这些较新的方法能否以经济的方式推广还有待观察。...PC版:https://www.cnbeta.com.tw/articles/soft/1391307.htm手机版:https://m.cnbeta.com.tw/view/1391307.htm

封面图片

IBM计算机“基准”实验显示量子计算机将在两年内超越传统计算机

IBM计算机“基准”实验显示量子计算机将在两年内超越传统计算机这项新研究的成果发表在上周的《自然》杂志上。科学家们使用IBM量子计算机Eagle来模拟真实材料的磁性,处理速度比传统计算机更快。IBM量子计算机之所以能超越传统计算机,是因为其使用了一种特殊的误差缓解过程来补偿噪声带来的影响。而噪声正是量子计算机的一个基本弱点。基于硅芯片的传统计算机依赖于“比特(bit)”进行运算,但其只能取0或1这两个值。相比之下,量子计算机使用的量子比特可以同时呈现多种状态。量子比特依赖于量子叠加和量子纠缠等量子现象。理论上这使得量子比特的计算速度更快,而且可以真正实现并行计算。相比之下,传统计算机基于比特的计算速度很慢,而且需要按顺序依次进行。但从历史上看,量子计算机有一个致命的弱点:量子比特的量子态非常脆弱,来自外部环境的微小破坏也会永远扰乱它们的状态,从而干扰所携带的信息。这使得量子计算机非常容易出错或“出现噪声”。在这一新的原理验证实验中,127量子比特的Eagle超级计算机用建立在超导电路上的量子比特计算了二维固体的完整磁性状态。然后,研究人员仔细测量每个量子比特所产生的噪声。事实证明,诸如超级计算材料中的缺陷等因素可以可靠预测每个量子比特所产生的噪声。据报道,研究小组随后利用这些预测值来模拟生成没有噪音的结果。量子霸权的说法之前就出现过。2019年,谷歌的科学家们声称,公司开发的量子计算机Sycamore在200秒内解决了一个普通计算机需要1万年才能破解的问题。但谷歌量子计算机所解决的问题本质上就是生成一长串随机数,然后检查它们的准确性,并没有什么实际用途。相比之下,用IBM量子计算机完成的新实验是一个高度简化但有真实应用价值的物理问题。2019年谷歌量子霸权研究成果参与者之一、加州大学圣巴巴拉分校物理学家约翰·马丁尼斯(JohnMartinis)表示,“这能让人们乐观认为,它将在其他系统和更复杂的算法中发挥作用。”(辰辰)...PC版:https://www.cnbeta.com.tw/articles/soft/1366285.htm手机版:https://m.cnbeta.com.tw/view/1366285.htm

封面图片

IBM发布量子计算芯片“苍鹭” 计划10年内造出超级计算机

IBM发布量子计算芯片“苍鹭”计划10年内造出超级计算机量子计算芯片,错误率创下历史新低当地时间12月4日,IBM在公司量子峰会上首次推出了量子计算芯片“IBMQuantumHeron”(苍鹭),这是IBM历史上第一个实用级量子处理器。“苍鹭”处理器拥有133个固定频率量子位,超过了127个量子位的“Eagle”(老鹰)处理器。IBM称,与“老鹰”相比,“苍鹭”处理器的设备性能提高了3至5倍,而且它的错误率创下了历史新低,比之前的量子处理器低三分之二。明年,将有更多“苍鹭”处理器将加入IBM行业领先的公用事业规模系统群。新型模块化系统亮相,超级计算机距离走进现实不远了另外,IBM还推出了该公司第一台拥有1000多个量子位的量子计算机IBM量子系统二号,相当于普通计算机中的量子位。据悉,该量子计算机将搭载3个“苍鹭”处理器运行。IBM向业界展示了新型模块化系统,将机器内部的处理器连接在一起,然后将机器连接在一起,以形成模块化系统,当与新的纠错代码相结合时,有望在2033年生产出引人注目的量子机器,即包括1000个逻辑量子位的超级计算机,全面释放量子计算的能量。IBM高级副总裁兼研究总监DarioGil表示:“我们正处于量子计算机被用作探索科学新领域的工具的时代。”“随着我们继续推进量子系统,通过模块化架构扩展和提供价值,我们将进一步提高公用事业规模量子技术堆栈的质量,并将其交到我们的用户和合作伙伴手中,他们将突破量子技术的界限更复杂的问题。”量子计算的关键障碍——出错概率大相较于传统计算机,量子计算利用量子的纠缠和叠加,实现更加强大的并行计算能力,且计算速度要快得多。但是,这些量子态也是出了名的变化无常,出错概率很大。为了解决这个问题,物理学家尝试通过诱导多个物理量子位(例如,每个物理量子位或单个离子编码在超导电路中)来共同编码一个信息量子位,即所谓的“逻辑量子位”。研究人员普遍表示,最先进的纠错技术每个“逻辑量子位”需要1000多个物理量子位,一台可以进行有用计算的机器需要拥有数百万个物理量子位。但近几个月来,物理学家对一种称为量子低密度奇偶校验(qLDPC)的替代纠错方案越来越感兴趣。根据IBM研究人员的1号预印本,这一数字将减少10倍或更多。该公司表示,现在将专注于构建芯片,该芯片旨在在400个左右的物理量子位中容纳一些经过qLDPC校正的量子位,然后将这些芯片连接在一起。马萨诸塞州剑桥市哈佛大学的物理学家MikhailLukin表示,IBM的预印本是“出色的理论著作”。“话虽这么说,用超导量子位实现这种方法似乎极具挑战性,甚至可能需要数年时间才能在这个平台上尝试概念验证实验,”Lukin说。问题是qLDPC技术要求每个量子位直接连接到至少6个其他量子位。在传统超导芯片中,每个量子位仅连接到2-3个相邻量子位。但位于纽约约克敦高地IBM托马斯·J·沃森研究中心的凝聚态物理学家兼IBMQuantum首席技术官OliverDial表示,该公司有一个计划:它将在其量子计算机的设计中添加一层量子芯片,以允许qLDPC方案所需的额外连接。IBM量子副总裁JayGambetta表示,该公司一直在采取双轨方法来准备硬件,包括开发持续大量制造高质量量子位的能力。他表示,超过1121个超导量子位的Condor表明该公司在这方面处于良好状态,IBM在周一推出了这款处理器。“它的量子位小了大约50%,”Gambetta对媒体表示,“收益率就在那里——我们的收益率接近100%。”IBM一直致力于研究的第二个问题是,限制对单个或成对的量子位进行操作时发生的错误。改变量子位的状态会产生微妙的信号,这些信号可能会渗透到相邻量子位中,这种现象就是所谓的串扰。“苍鹭”在新型处理器中属于较小的一款,代表了IBM研发团队4年来为提高门性能所做的努力。“这是一个漂亮的设备,”Gambett说,“它比以前的设备好5倍,错误少得多,而且串扰无法真正测量。”量子计算何时能实现商业化?尽管这项量子计算研究具有里程碑意义,但截至目前仍无法实现商业化。“这一直是一个梦想,而且一直是一个遥远的梦想,”Dial说,“实际上,让它足够接近,让我们能够看到我们今天所处的位置,对我来说是巨大的。”IBM将其量子开发路线图延长10年至2033年,以构建计算、纠错能力更强大的系统。另外,到2024年底,IBM计划在美国、加拿大、日本和德国建立八个量子计算中心,以确保研究人员广泛使用量子系统二号。Gambetta同时表示:“我们需要一段时间才能从科学价值转向商业价值。”“但在我看来,研究和商业化之间的区别正在变得越来越紧密。”IBM研究人员表示,最近的进展增强了他们对量子计算长期潜力的信心,尽管他们没有预测量子计算何时会进入商业主流。...PC版:https://www.cnbeta.com.tw/articles/soft/1402181.htm手机版:https://m.cnbeta.com.tw/view/1402181.htm

封面图片

内置人类脑组织的计算机芯片研发工作获得军方资助

内置人类脑组织的计算机芯片研发工作获得军方资助DishBrain核心的微电极阵列既能读取脑细胞的活动,也能用电信号刺激它们,因此研究小组设置了一个版本的乒乓球游戏,向脑细胞输入移动的电信号,以表示球在"屏幕"的哪一边,以及离球拍有多远。他们让脑细胞作用于球拍,使其左右移动。然后,他们利用小群脑细胞倾向于尽量减少环境中的不可预测性这一事实,建立了一个非常基本的奖励系统。因此,如果球拍击中了球,细胞就会收到一个很好的、可预测的刺激。但如果球没打中,细胞就会受到四秒钟完全不可预测的刺激。这是实验室培育的脑细胞第一次被这样使用,它们不仅能感知世界,还能采取行动,结果令人印象深刻。在电极阵列上生长的DishBrain神经元的扫描电子显微镜图像这项与墨尔本初创公司皮质实验室(CorticalLabs)合作开展的研究令人印象深刻,目前已获得澳大利亚国家情报与安全发现研究资助计划(NationalIntelligenceandSecurityDiscoveryResearchGrantsprogram)40.7万美元的资助。项目负责人阿迪尔-拉齐(AdeelRazi)副教授说:"这些融合了生物计算与人工智能的可编程芯片未来可能最终超越现有的纯硅基硬件的性能。这些研究成果将对规划、机器人、先进自动化、脑机接口和药物研发等多个领域产生重大影响,从而为澳大利亚带来巨大的战略优势。"DishBrain内神经元的显微镜图像,细胞使用荧光标记突出显示换句话说,DishBrain的高级学习能力可以支撑新一代的机器学习,尤其是在自动驾驶汽车、无人机和机器人中。拉齐说:"它可以为它们提供一种新型的机器智能,能够在整个生命周期内进行学习。"这项技术有望让机器在不损害旧能力的情况下不断学习新能力,能够很好地适应变化,并能将旧知识映射到新情况中,同时不断自我优化计算能力、内存和能源的使用。"我们将利用这笔资金,开发出更好的人工智能机器,复制这些生物神经网络的学习能力。这将帮助我们扩大硬件和方法的能力,使它们成为硅计算的可行替代品。"...PC版:https://www.cnbeta.com.tw/articles/soft/1372287.htm手机版:https://m.cnbeta.com.tw/view/1372287.htm

封面图片

IBM创建Vela云原生超级计算机 可用于训练AI模型

IBM创建Vela云原生超级计算机可用于训练AI模型一些专家表示,计算能力将成为开发更大的下一代基础模型的最大瓶颈,因为训练它们需要花费大量时间。据报道,云原生超级计算技术融合了高性能计算的强大算力和云服务的安全性与易用性。IBM工程师写道:“拥有合适的工具和基础设施是提高研发效率的关键因素。”“许多团队选择遵循为人工智能构建传统超级计算机的可靠路径……我们一直致力于更好的解决方案,提供高性能计算和高端用户生产力的双重好处。”据了解,人工智能需要很大的性能基础。最近,大型语言模型已经撼动了整个行业,OpenAI打造的ChatGPT被许多人视为人工智能的“iPhone时刻”。这些模型不需要监督,但确实需要大量的计算。...PC版:https://www.cnbeta.com.tw/articles/soft/1343373.htm手机版:https://m.cnbeta.com.tw/view/1343373.htm

封面图片

IBM模拟AI芯片登Nature:能效提升14倍 语音识别速度提升7倍

IBM模拟AI芯片登Nature:能效提升14倍语音识别速度提升7倍一、利用PCM存储数据,模拟芯片解决AI技术高能耗问题AI相关技术在飞速发展的同时,也面临着能源消耗的问题。为了提升能源效率,IBM来自世界各地实验室的研究人员共同研发了这款模拟AI芯片。据称,在两个AI推理实验中,该芯片都像同类数字芯片一样可靠地执行任务,但其完成任务的速度更快,能耗更低。IBM称,其研究人员一直都在深耕模拟AI芯片领域。2021年,其团队就发布了一款名为Fusion的模拟芯片,利用PCM设备的存储能力和物理属性,更高效地实现人工神经网络。传统计算机基于冯·诺依曼结构——一种将程序指令存储器和数据存储器合并在一起的电脑设计概念结构,每次计算都将数据从DRAM(动态随机存取存储器)内存传输到CPU,导致工作速度受到实际限制,永远无法实现CPU的真正计算能力,这被称为“冯·诺依曼瓶颈”。▲当每次计算将数据从DRAM内存传输到CPU时,传统计算机就会出现瓶颈(图源:IBM官网)通过利用PCM设备的物理特性,模拟芯片可以克服冯·诺依曼瓶颈,在存储数据的同一位置执行计算。由于没有数据移动,它可以在很短的时间内执行任务,并且消耗的能源更少。▲模拟芯片通过在存储数据的地方执行计算来克服瓶颈(图源:IBM官网)例如,将64位数据从DRAM移动到CPU会消耗1-2nJ(纳焦)能量,而在PCM设备上执行只需消耗1-100fJ(飞焦),是前者的1万至200万分之一。当扩展到数十亿次操作时,所节省的能源是巨大的。此外,当设备不活动时,PCM不会消耗电力,即使断电数据也将保留10年。二、采用全新设计方式,14nm芯片可编码3500万个PCM虽然IBM早在两年前便以研发出了模拟芯片,并尝试将其用于提升AI计算性能,但Fusion芯片一次只能访问一个PCM设备,对速度和能效的提升并不显著。IBM本次发布的这款芯片采用了新的设计方式,利用34个大型PCM阵列,结合了数模转换输入、模拟外围电路、模数转换输出和大规模并行二维网格路由。每个14nm芯片上可编码3500万个PCM,在每权重对应2-PCMs的方案中,可容纳1700万个参数。将这些芯片组合在一起,便能够像数字芯片一样有效地处理真实AI用例的实验。▲IBM模拟AI芯片的显微照片(图源:论文插图)上图中,图a显示了芯片的显微照片,突出显示了34个PCM阵列模块的2D网格,每个模块都有自己的512×2,048PCM交叉阵列。PCM器件集成在14nm前端电路上方的后端布线中(图b),可通过电脉冲调整窄底电极上晶体相(高导电性)和非晶相(高电阻性)材料的相对体积来编码模拟电导状态。对PCM器件进行编程时采用并行编程方案(图c),这样同一行中的所有512个权值都会同时更新。该研发团队采用的方法是优化主导深度学习计算的MAC(乘积累加运算)。通过读取电阻式NVM(非易失性存储器)设备阵列的行,然后沿列收集电流,团队证明可以在存储器内执行MAC,无需在芯片的存储器和计算区域之间或跨芯片移动权重。三、精确度不减,语音识别速度提升7倍、大模型运行能效提升14倍为了验证芯片的有效性,该团队设计了两个实验对其进行测试。他们从MLPerf中选择了两个神经网络模型,分别是语音唤醒和语音转文本模型。MLPerf由斯坦福、哈佛等顶尖学术机构发起成立的,权威性最大、影响力最广的国际AI性能基准测试。第一个实验围绕关键词语音检测展开。该团队提出了一种卷积神经网络架构,并在包含12个关键字的谷歌语音命令数据集上进行训练。团队采用了架构更简单的FC(全连接)网络结构,最终达到了86.14%的识别精度,且提交速度比MLPerf目前最佳情况快7倍。该模型使用硬件感知训练在GPU上进行训练,然后部署在团队的模拟AI芯片上。▲端到端语音唤醒任务相关图表(图源:论文插图)第二个实验围绕语音转文本展开,规模更大。团队使用5个模拟AI芯片组合在一起,运行RNN-T(循环神经网络转换器)模型,以逐个字母地转录语音内容。该系统包含5个芯片上1.4亿个PCM设备的4500万个权重,能够采集人们说话的音频并以非常接近数字硬件设置的精度进行转录。该实验最终达到9.258%的单词错误率,能量效率达6.704TOPS/W(万亿次操作每秒/瓦),比MLPerf目前最佳能效提高了14倍。▲模拟AI芯片在RNN-T模型上表现出的性能相关图表(图源:论文插图)与第一个实验不同,这个实验并不完全是端到端的,这意味着它确实需要一些片外数字计算。IBM称,这里涉及的额外计算很少,如果在芯片上实现,最终的能效仍然高于当今市场上的产品。结语:模拟AI芯片能否成为下一个趋势继2021年推出第一款模拟芯片Fusion后,IBM于近日发布了专攻AI的模拟芯片,速度、能效均比传统数字芯片大幅提升,准确率也保持高水准。传统芯片受制于“冯·诺依曼瓶颈”,而模拟芯片可以打破这一桎梏,为AI技术带来新的生命力。未来,模拟芯片市场能否得到进一步发展,我们会持续关注。来源:Nature、IBM官网...PC版:https://www.cnbeta.com.tw/articles/soft/1379447.htm手机版:https://m.cnbeta.com.tw/view/1379447.htm

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人