IBM开发出NorthPole芯片全新架构缓解冯-诺依曼计算瓶颈

IBM开发出NorthPole芯片全新架构缓解冯-诺依曼计算瓶颈IBM开发的NorthPole芯片将内存和处理功能结合在一起，大大改进了图像识别和其他计算任务。帕莱索巴黎-萨克雷大学的纳米电子学研究员达米安-奎尔利奥兹（DamienQuerlioz）说："它的能效简直令人难以置信。发表在《科学》（Science）上的这项工作表明，计算和内存可以大规模集成。这篇论文将撼动计算机体系结构的惯常思维"。NorthPole运行神经网络：由简单计算单元组成的多层阵列，通过编程识别数据中的模式。底层接收数据，例如图像中的像素；每一层都能检测到复杂度不断增加的模式，并将信息传递给下一层。顶层产生输出，例如，可以表示图像中包含一只猫、一辆车或其他物体的可能性有多大。有些计算机芯片可以高效地处理这些计算，但每次计算一个层时，它们仍需要使用RAM。这种在芯片间穿梭数据的方式会减慢速度--这种现象被称为冯-诺依曼瓶颈（VonNeumannbottleneck），以数学家约翰-冯-诺依曼（JohnvonNeumann）命名。冯-诺依曼瓶颈是导致计算机应用（包括人工智能）速度减慢的最重要因素之一。它还导致能源效率低下。该研究的合著者、IBM公司的计算机工程师达门德拉-莫德哈（DharmendraModha）说，他曾经估计，在这种架构上模拟人脑可能需要相当于12个核反应堆的输出功率。NorthPole由256个计算单元或内核组成，每个单元或内核都有自己的内存。这在一个内核中就缓解了冯-诺依曼瓶颈。随后这些内核通过网络连接在一起，其灵感来自于人类大脑皮层各部分之间的白质连接。这种设计原则和其他设计原则--其中大部分以前就存在，但从未在一个芯片中结合过--使NorthPole能够在标准的图像识别基准测试中以相当大的优势击败现有的人工智能机器。尽管没有采用最新和最微型化的制造工艺，它的能耗也只有最先进人工智能芯片的五分之一。作者估计，如果NorthPole设计采用最新的制造工艺，其效率将比目前的设计高出25倍。但是，对于大型语言模型（如聊天机器人ChatGPT使用的语言模型）来说，即使NorthPole拥有224兆字节的内存也是不够的。而且该芯片只能运行预先编程的神经网络，这些网络需要事先在另一台机器上进行"训练"。但论文作者表示，NorthPole架构在速度要求极高的应用中可能非常有用，比如自动驾驶汽车。NorthPole使内存单元尽可能地接近核心中的计算元件。在其他领域，研究人员一直在利用新材料和制造工艺进行更激进的创新。这些技术使内存单元本身也能进行计算，原则上可以进一步提高速度和效率。上个月介绍的另一款芯片利用忆阻器（一种可以在电阻和导体之间切换的电路元件）进行内存计算。清华大学的高斌（BinGao）是忆阻器研究的共同作者，他说："IBM和我们的两种方法都有望缩短延迟时间，降低数据传输的能耗成本。"另一种方法是由多个团队开发的，其中包括位于瑞士苏黎世的IBM实验室的一个团队，它通过改变电路元件的晶体结构来存储信息。这些较新的方法能否以经济的方式推广还有待观察。...PC版：https://www.cnbeta.com.tw/articles/soft/1391307.htm手机版：https://m.cnbeta.com.tw/view/1391307.htm

在Telegram中查看

相关推荐

IBM 研发出了一种突破冯·诺依曼瓶颈的计算机芯片

IBM研发出了一种突破冯·诺依曼瓶颈的计算机芯片传统的计算芯片每次计算时仍然需要使用称为RAM的外部存储器。这种在芯片间穿梭数据的方式会减慢速度，这种现象被称为“冯·诺依曼瓶颈”。IBM研发处一种名为“NorthPole”处理器芯片无需访问外部存储器，因此执行图像识别等任务的速度比现有架构更快，同时“它的能效简直令人难以置信”。NorthPole由256个计算单元组成，每个单元都有自己的内存，“在单元中缓解了冯·诺依曼瓶颈”。这些单元通过网络连接在一起，其灵感来自于人类大脑皮层各部分之间的白质连接。这种设计思路大部分以前就存在，但从未在一个芯片中结合过。研究人员说，这表明计算和内存可以大规模集成，“将撼动计算机体系结构的惯常思维”。来源，频道：@kejiqu群组：@kejiquchat

IBM的新型模拟人工智能芯片比GPU更高效

IBM的新型模拟人工智能芯片比GPU更高效新的模拟人工智能芯片仍在开发中，它能够在同一位置同时计算和存储内存。这种设计模拟了人脑的运作，从而提高了能效。该技术不同于当前的解决方案，当前的解决方案需要在内存和处理单元之间不断移动数据，从而降低了计算能力，增加了功耗。在该公司的内部测试中，在评估模拟内存计算的计算精度时，新芯片在CIFAR-10图像数据集上显示出92.81%的准确率。IBM声称，这一精确度水平可与采用类似技术的任何现有芯片相媲美。更令人印象深刻的是它在测试过程中的能效，每次输入仅消耗1.51微焦耳的能量。上周发表在《自然-电子学》（NatureElectronics）上的这篇研究论文还提供了有关该芯片构造的更多信息。该芯片采用14纳米互补金属氧化物半导体（CMOS）技术制造，拥有64个模拟内存计算内核（或瓦片）。每个内核都集成了一个256x256的突触单元交叉阵列，能够执行与一层深度神经网络（DNN）模型相对应的计算。此外，该芯片还配备了一个全局数字处理单元，能够执行对某些类型的神经网络至关重要的更复杂运算。IBM的新芯片是一项引人关注的进步，尤其是考虑到近来人工智能处理系统的功耗呈指数级增长。有报告显示，人工智能推理机架的耗电量通常是普通服务器机架的10倍，这导致了高昂的人工智能处理成本和环境问题。在这种情况下，任何能提高处理效率的改进都会受到业界的热烈欢迎。作为额外的好处，专用的高能效AI芯片有可能减少对GPU的需求，从而降低游戏玩家的价格。不过，值得注意的是，这目前只是推测，因为IBM芯片仍处于开发阶段。其过渡到大规模生产的时间表仍不确定。在此之前，GPU仍将是人工智能处理的主要选择，因此在不久的将来，GPU的价格不太可能变得更低。...PC版：https://www.cnbeta.com.tw/articles/soft/1378527.htm手机版：https://m.cnbeta.com.tw/view/1378527.htm

IBM模拟AI芯片登Nature：能效提升14倍语音识别速度提升7倍

IBM模拟AI芯片登Nature：能效提升14倍语音识别速度提升7倍一、利用PCM存储数据，模拟芯片解决AI技术高能耗问题AI相关技术在飞速发展的同时，也面临着能源消耗的问题。为了提升能源效率，IBM来自世界各地实验室的研究人员共同研发了这款模拟AI芯片。据称，在两个AI推理实验中，该芯片都像同类数字芯片一样可靠地执行任务，但其完成任务的速度更快，能耗更低。IBM称，其研究人员一直都在深耕模拟AI芯片领域。2021年，其团队就发布了一款名为Fusion的模拟芯片，利用PCM设备的存储能力和物理属性，更高效地实现人工神经网络。传统计算机基于冯·诺依曼结构——一种将程序指令存储器和数据存储器合并在一起的电脑设计概念结构，每次计算都将数据从DRAM（动态随机存取存储器）内存传输到CPU，导致工作速度受到实际限制，永远无法实现CPU的真正计算能力，这被称为“冯·诺依曼瓶颈”。▲当每次计算将数据从DRAM内存传输到CPU时，传统计算机就会出现瓶颈（图源：IBM官网）通过利用PCM设备的物理特性，模拟芯片可以克服冯·诺依曼瓶颈，在存储数据的同一位置执行计算。由于没有数据移动，它可以在很短的时间内执行任务，并且消耗的能源更少。▲模拟芯片通过在存储数据的地方执行计算来克服瓶颈（图源：IBM官网）例如，将64位数据从DRAM移动到CPU会消耗1-2nJ（纳焦）能量，而在PCM设备上执行只需消耗1-100fJ（飞焦），是前者的1万至200万分之一。当扩展到数十亿次操作时，所节省的能源是巨大的。此外，当设备不活动时，PCM不会消耗电力，即使断电数据也将保留10年。二、采用全新设计方式，14nm芯片可编码3500万个PCM虽然IBM早在两年前便以研发出了模拟芯片，并尝试将其用于提升AI计算性能，但Fusion芯片一次只能访问一个PCM设备，对速度和能效的提升并不显著。IBM本次发布的这款芯片采用了新的设计方式，利用34个大型PCM阵列，结合了数模转换输入、模拟外围电路、模数转换输出和大规模并行二维网格路由。每个14nm芯片上可编码3500万个PCM，在每权重对应2-PCMs的方案中，可容纳1700万个参数。将这些芯片组合在一起，便能够像数字芯片一样有效地处理真实AI用例的实验。▲IBM模拟AI芯片的显微照片（图源：论文插图）上图中，图a显示了芯片的显微照片，突出显示了34个PCM阵列模块的2D网格，每个模块都有自己的512×2,048PCM交叉阵列。PCM器件集成在14nm前端电路上方的后端布线中（图b），可通过电脉冲调整窄底电极上晶体相（高导电性）和非晶相（高电阻性）材料的相对体积来编码模拟电导状态。对PCM器件进行编程时采用并行编程方案（图c），这样同一行中的所有512个权值都会同时更新。该研发团队采用的方法是优化主导深度学习计算的MAC（乘积累加运算）。通过读取电阻式NVM（非易失性存储器）设备阵列的行，然后沿列收集电流，团队证明可以在存储器内执行MAC，无需在芯片的存储器和计算区域之间或跨芯片移动权重。三、精确度不减，语音识别速度提升7倍、大模型运行能效提升14倍为了验证芯片的有效性，该团队设计了两个实验对其进行测试。他们从MLPerf中选择了两个神经网络模型，分别是语音唤醒和语音转文本模型。MLPerf由斯坦福、哈佛等顶尖学术机构发起成立的，权威性最大、影响力最广的国际AI性能基准测试。第一个实验围绕关键词语音检测展开。该团队提出了一种卷积神经网络架构，并在包含12个关键字的谷歌语音命令数据集上进行训练。团队采用了架构更简单的FC（全连接）网络结构，最终达到了86.14%的识别精度，且提交速度比MLPerf目前最佳情况快7倍。该模型使用硬件感知训练在GPU上进行训练，然后部署在团队的模拟AI芯片上。▲端到端语音唤醒任务相关图表（图源：论文插图）第二个实验围绕语音转文本展开，规模更大。团队使用5个模拟AI芯片组合在一起，运行RNN-T（循环神经网络转换器）模型，以逐个字母地转录语音内容。该系统包含5个芯片上1.4亿个PCM设备的4500万个权重，能够采集人们说话的音频并以非常接近数字硬件设置的精度进行转录。该实验最终达到9.258%的单词错误率，能量效率达6.704TOPS/W（万亿次操作每秒/瓦），比MLPerf目前最佳能效提高了14倍。▲模拟AI芯片在RNN-T模型上表现出的性能相关图表（图源：论文插图）与第一个实验不同，这个实验并不完全是端到端的，这意味着它确实需要一些片外数字计算。IBM称，这里涉及的额外计算很少，如果在芯片上实现，最终的能效仍然高于当今市场上的产品。结语：模拟AI芯片能否成为下一个趋势继2021年推出第一款模拟芯片Fusion后，IBM于近日发布了专攻AI的模拟芯片，速度、能效均比传统数字芯片大幅提升，准确率也保持高水准。传统芯片受制于“冯·诺依曼瓶颈”，而模拟芯片可以打破这一桎梏，为AI技术带来新的生命力。未来，模拟芯片市场能否得到进一步发展，我们会持续关注。来源：Nature、IBM官网...PC版：https://www.cnbeta.com.tw/articles/soft/1379447.htm手机版：https://m.cnbeta.com.tw/view/1379447.htm

IBM发布量子计算芯片“苍鹭” 计划10年内造出超级计算机

IBM发布量子计算芯片“苍鹭”计划10年内造出超级计算机量子计算芯片，错误率创下历史新低当地时间12月4日，IBM在公司量子峰会上首次推出了量子计算芯片“IBMQuantumHeron”（苍鹭），这是IBM历史上第一个实用级量子处理器。“苍鹭”处理器拥有133个固定频率量子位，超过了127个量子位的“Eagle”（老鹰）处理器。IBM称，与“老鹰”相比，“苍鹭”处理器的设备性能提高了3至5倍，而且它的错误率创下了历史新低，比之前的量子处理器低三分之二。明年，将有更多“苍鹭”处理器将加入IBM行业领先的公用事业规模系统群。新型模块化系统亮相，超级计算机距离走进现实不远了另外，IBM还推出了该公司第一台拥有1000多个量子位的量子计算机IBM量子系统二号，相当于普通计算机中的量子位。据悉，该量子计算机将搭载3个“苍鹭”处理器运行。IBM向业界展示了新型模块化系统，将机器内部的处理器连接在一起，然后将机器连接在一起，以形成模块化系统，当与新的纠错代码相结合时，有望在2033年生产出引人注目的量子机器，即包括1000个逻辑量子位的超级计算机，全面释放量子计算的能量。IBM高级副总裁兼研究总监DarioGil表示：“我们正处于量子计算机被用作探索科学新领域的工具的时代。”“随着我们继续推进量子系统，通过模块化架构扩展和提供价值，我们将进一步提高公用事业规模量子技术堆栈的质量，并将其交到我们的用户和合作伙伴手中，他们将突破量子技术的界限更复杂的问题。”量子计算的关键障碍——出错概率大相较于传统计算机，量子计算利用量子的纠缠和叠加，实现更加强大的并行计算能力，且计算速度要快得多。但是，这些量子态也是出了名的变化无常，出错概率很大。为了解决这个问题，物理学家尝试通过诱导多个物理量子位（例如，每个物理量子位或单个离子编码在超导电路中）来共同编码一个信息量子位，即所谓的“逻辑量子位”。研究人员普遍表示，最先进的纠错技术每个“逻辑量子位”需要1000多个物理量子位，一台可以进行有用计算的机器需要拥有数百万个物理量子位。但近几个月来，物理学家对一种称为量子低密度奇偶校验（qLDPC）的替代纠错方案越来越感兴趣。根据IBM研究人员的1号预印本，这一数字将减少10倍或更多。该公司表示，现在将专注于构建芯片，该芯片旨在在400个左右的物理量子位中容纳一些经过qLDPC校正的量子位，然后将这些芯片连接在一起。马萨诸塞州剑桥市哈佛大学的物理学家MikhailLukin表示，IBM的预印本是“出色的理论著作”。“话虽这么说，用超导量子位实现这种方法似乎极具挑战性，甚至可能需要数年时间才能在这个平台上尝试概念验证实验，”Lukin说。问题是qLDPC技术要求每个量子位直接连接到至少6个其他量子位。在传统超导芯片中，每个量子位仅连接到2-3个相邻量子位。但位于纽约约克敦高地IBM托马斯·J·沃森研究中心的凝聚态物理学家兼IBMQuantum首席技术官OliverDial表示，该公司有一个计划：它将在其量子计算机的设计中添加一层量子芯片，以允许qLDPC方案所需的额外连接。IBM量子副总裁JayGambetta表示，该公司一直在采取双轨方法来准备硬件，包括开发持续大量制造高质量量子位的能力。他表示，超过1121个超导量子位的Condor表明该公司在这方面处于良好状态，IBM在周一推出了这款处理器。“它的量子位小了大约50%，”Gambetta对媒体表示，“收益率就在那里——我们的收益率接近100%。”IBM一直致力于研究的第二个问题是，限制对单个或成对的量子位进行操作时发生的错误。改变量子位的状态会产生微妙的信号，这些信号可能会渗透到相邻量子位中，这种现象就是所谓的串扰。“苍鹭”在新型处理器中属于较小的一款，代表了IBM研发团队4年来为提高门性能所做的努力。“这是一个漂亮的设备，”Gambett说，“它比以前的设备好5倍，错误少得多，而且串扰无法真正测量。”量子计算何时能实现商业化？尽管这项量子计算研究具有里程碑意义，但截至目前仍无法实现商业化。“这一直是一个梦想，而且一直是一个遥远的梦想，”Dial说，“实际上，让它足够接近，让我们能够看到我们今天所处的位置，对我来说是巨大的。”IBM将其量子开发路线图延长10年至2033年，以构建计算、纠错能力更强大的系统。另外，到2024年底，IBM计划在美国、加拿大、日本和德国建立八个量子计算中心，以确保研究人员广泛使用量子系统二号。Gambetta同时表示：“我们需要一段时间才能从科学价值转向商业价值。”“但在我看来，研究和商业化之间的区别正在变得越来越紧密。”IBM研究人员表示，最近的进展增强了他们对量子计算长期潜力的信心，尽管他们没有预测量子计算何时会进入商业主流。...PC版：https://www.cnbeta.com.tw/articles/soft/1402181.htm手机版：https://m.cnbeta.com.tw/view/1402181.htm

IBM力推云服务平台考虑使用自家AI芯片降低成本

IBM力推云服务平台考虑使用自家AI芯片降低成本十多年前，IBM的首个主要AI系统“Watson”未能取得市场关注度。而十多年后，IBM希望利用生成式AI技术的蓬勃发展，大力宣传新的“Watsonx”云服务。“Watsonx”平台主要面向企业，企业可以利用该平台来建立自己的模型，从而为客户服务或编写代码等。降成本旧的“Watson”系统面临的障碍之一是高成本，IBM希望这次能够解决这个问题。Khare表示，使用自家的芯片可以降低云服务成本，因为它们非常节能。IBM在10月份宣布了这种AI芯片。这是一种专用集成电路(ASIC)，旨在更快、更高效地训练和运行需要大规模并行计算的深度学习模型。Khare周二透露，这款AI芯片是由三星电子代工的，三星电子与IBM在半导体研究方面有合作关系，IBM正在考虑将其用于WatsonX。IBM尚未确定该芯片何时可供云客户使用，但Khare表示该公司已经有数千个原型芯片投入使用。AIU芯片的特色如今众多科技巨头，例如Alphabet旗下的Google和亚马逊等公司，都开始着手设计自己的AI芯片。不过，英伟达的芯片在训练具有大量数据的AI系统方面仍处于市场领先地位。Khare对此表示，IBM并没有试图设计一款能直接替代英伟达芯片的产品。IBM设计的AIU芯片是专为深度学习模型加速而设计的，并针对矩阵和矢量计算进行了优化。AIU能够以远超CPU的速度执行数据分析，并且也还能够解决高复杂的计算问题。这款芯片设计之时，IBM认为有些计算任务并不需要高精度，于是提出了一个新术语“近似计算”，降低了传统计算精度。就好比人类大脑，即便没有高分辨率，也能分辨出家人或者小猫小狗。在AIU芯片的设计中，近似计算发挥着重要作用，这种芯片虽计算精度低于CPU，但同时也让运算执行速度翻倍。所以，IBM指出AIU芯片旨在提高成本效益，即让一个已经训练有素的人工智能系统在现实世界中快速做出决策。...PC版：https://www.cnbeta.com.tw/articles/soft/1370451.htm手机版：https://m.cnbeta.com.tw/view/1370451.htm

IBM创建Vela云原生超级计算机可用于训练AI模型

IBM创建Vela云原生超级计算机可用于训练AI模型一些专家表示，计算能力将成为开发更大的下一代基础模型的最大瓶颈，因为训练它们需要花费大量时间。据报道，云原生超级计算技术融合了高性能计算的强大算力和云服务的安全性与易用性。IBM工程师写道:“拥有合适的工具和基础设施是提高研发效率的关键因素。”“许多团队选择遵循为人工智能构建传统超级计算机的可靠路径……我们一直致力于更好的解决方案，提供高性能计算和高端用户生产力的双重好处。”据了解，人工智能需要很大的性能基础。最近，大型语言模型已经撼动了整个行业，OpenAI打造的ChatGPT被许多人视为人工智能的“iPhone时刻”。这些模型不需要监督，但确实需要大量的计算。...PC版：https://www.cnbeta.com.tw/articles/soft/1343373.htm手机版：https://m.cnbeta.com.tw/view/1343373.htm

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人