一种新型AI芯片可能将能效提高六倍 显著减少电力足迹

一种新型AI芯片可能将能效提高六倍 显著减少电力足迹 电子工程与计算机科学助理教授 Sieun Chae 正致力于帮助减少该技术的电力消耗。她正在研究一种基于新型材料平台的芯片,这种芯片可以同时进行计算和数据存储,模仿生物神经网络处理信息存储和处理的方式。她的研究成果最近发表在《自然电子学》上。"随着人工智能的出现,计算机不得不快速处理和存储大量数据,"Chae 说。"人工智能芯片的设计目的是在内存中计算任务,从而最大限度地减少数据在内存和处理器之间的穿梭;因此,它们可以更高效地执行人工智能任务。"这些芯片采用的元件被称为忆阻器(memristors)记忆电阻器的简称。大多数忆阻器由两种元素组成的简单材料系统制成,但这项研究中的忆阻器采用了一种称为熵稳定氧化物(ESO)的新型材料系统。ESO由半数以上的元素组成,可以对其记忆能力进行微调。Memristors 与生物神经网络类似,都没有外部记忆源,因此数据从内部移动到外部再返回时不会损失能量。Chae说,通过优化最适合特定人工智能工作的ESO成分,基于ESO的芯片在执行任务时的能耗远远低于计算机的中央处理单元。另一个结果是,人工神经网络将能够处理随时间变化的信息,如音频和视频数据,这要归功于调整了 ESO 的组成,使设备能够在不同的时间尺度上工作。这项研究由美国国家科学基金会资助,由密歇根大学的研究人员领导;Chae 在加入俄勒冈州立大学教师队伍之前,作为密歇根大学的博士生参与了这项研究。参与合作的还有俄克拉荷马大学、康奈尔大学和宾夕法尼亚州立大学的研究人员。编译自/scitechdailyDOI: 10.1038/s41928-024-01169-1 ... PC版: 手机版:

相关推荐

封面图片

研究人员在高精度计算中释放忆阻器的威力

研究人员在高精度计算中释放忆阻器的威力 麻省理工大学阿默斯特分校制作的集成芯片示例照片,其中包含不同尺寸的忆阻器横条阵列。图片来源:Can Li马萨诸塞大学阿默斯特分校电气与计算机工程系教授、《科学》(Science)杂志上发表的这项研究的通讯作者之一夏强飞解释说,在当前的计算方法下,每次要存储信息或给计算机布置任务时,都需要在内存和计算单元之间移动数据。当复杂的任务需要移动大量数据时,处理过程中就会出现"交通堵塞"。传统计算解决这一问题的方法之一是增加带宽。相反,Xia 和他在阿默斯特大学、南加州大学以及计算技术制造商 TetraMem 公司的同事们利用模拟忆阻器技术实现了内存计算,通过减少数据传输次数来避免这些瓶颈。该团队的内存计算依赖于一种名为"忆阻器"的电子元件它是内存和电阻器(控制电路中的电流)的结合体。忆阻器可以控制电路中的电流流向,同时还能"记忆"先前的状态,即使在电源关闭的情况下也是如此,这与当今基于晶体管的计算机芯片不同,后者只能在有电的情况下保存信息。忆阻器装置可编程为多个电阻等级,从而提高了一个单元的信息密度。当这种忆阻器电路被组织成一个交叉棒阵列时,就能以大规模并行的方式利用物理定律进行模拟计算,从而大大加快矩阵运算的速度,而矩阵运算是神经网络中最常用但却非常耗电的计算。计算在设备现场进行,而不是在内存和处理之间移动数据。夏用交通作类比,把内存计算比作大流行病高峰期几乎空无一人的道路:"你消除了交通,因为(几乎)每个人都在家工作,"他说。"我们同时工作,但只将重要数据/结果发送出去"。此前,这些研究人员已经证明,他们的忆阻器可以完成低精度计算任务,如机器学习。其他应用还包括模拟信号处理、射频传感和硬件安全。夏说:"在这项工作中,我们提出并演示了一种新的电路架构和编程协议,它可以使用多个相对低精度的模拟器件(如忆阻器)的加权和来有效地表示高精度数,与现有的量化方法相比,大大降低了电路开销、能耗和延迟。这篇论文的突破在于,我们进一步推动了这一领域的发展。这项技术不仅适用于低精度的神经网络计算,也适用于高精度的科学计算"。在原理验证演示中,忆阻器解决了静态和时变偏微分方程、纳维-斯托克斯方程和磁流体力学问题。他说:"我们突破了自己的舒适区,从边缘计算神经网络的低精度要求扩展到高精度科学计算。"马萨诸塞大学阿默斯特分校的团队和合作者花了十多年时间才设计出合适的忆阻器设备,并为模拟内存计算构建了相当规模的电路和计算机芯片。"我们过去十年的研究使模拟忆阻器成为一项可行的技术。现在是时候把这样一项伟大的技术推向半导体行业,使广大的人工智能硬件社区受益了。"编译自:ScitechDaily ... PC版: 手机版:

封面图片

可调谐忆阻器的研发进展有助于人工神经网络更高效处理随时间变化的数据

可调谐忆阻器的研发进展有助于人工神经网络更高效处理随时间变化的数据 人工神经网络也许很快就能更高效地处理随时间变化的信息,如音频和视频数据。密歇根大学领导的一项研究在今天的《自然-电子学》(Nature Electronics)杂志上报告了首个具有可调节"弛豫时间"的忆阻器。忆阻器是一种将信息存储在电阻中的电子元件,与当今的图形处理单元相比,它可以将人工智能的能源需求降低约 90 倍。预计到 2027 年,人工智能的耗电量将占全球总耗电量的一半左右,而且随着越来越多的公司销售和使用人工智能工具,这一比例还有可能进一步上升。"现在,人们对人工智能很感兴趣,但要处理更大、更有趣的数据,方法就是扩大网络规模。这效率并不高,"麻省理工大学詹姆斯-R-梅勒工程学教授 Wei Lu 说,他与麻省理工大学材料科学与工程学副教授 John Heron 是这项研究的共同通讯作者。图形处理器的问题问题在于,GPU 的运行方式与运行人工智能算法的人工神经网络截然不同整个网络及其所有互动都必须从外部存储器中顺序加载,这既耗时又耗能。相比之下,忆阻器可以节省能源,因为它们模仿了人工神经网络和生物神经网络在没有外部存储器的情况下运行的主要方式。在某种程度上,忆阻器网络可以体现人工神经网络。麻省理工学院材料科学与工程系应届博士毕业生 Sieun Chae 与麻省理工学院电气与计算机工程系应届博士毕业生 Sangmin Yoo 是这项研究的共同第一作者。在生物神经网络中,计时是通过放松来实现的。每个神经元都会接收电信号并将其发送出去,但这并不能保证信号会向前推进。在神经元发送自己的信号之前,必须先达到接收信号的某个阈值,而且必须在一定时间内达到该阈值。如果时间过长,神经元就会随着电能的渗出而松弛。神经网络中具有不同松弛时间的神经元有助于我们理解事件的顺序。忆阻器如何工作忆阻器的工作原理略有不同。改变的不是信号的存在与否,而是有多少电信号可以通过。接触到一个信号,忆阻器的电阻就会降低,从而允许更多的下一个信号通过。在忆阻器中,弛豫意味着随着时间的推移,电阻会再次上升。Lu 的研究小组过去曾探索过在忆阻器中加入弛豫时间,但这并不是可以系统控制的。但现在,Lu 和 Heron 的团队已经证明,基础材料的变化可以提供不同的弛豫时间,从而使忆阻器网络能够模仿这种计时机制。材料成分和测试研究小组在超导体 YBCO(由钇、钡、碳和氧制成)的基础上构建了这些材料。YBCO在零下292华氏度的温度下没有电阻,但他们想要它的晶体结构。它引导着镁氧化物、钴氧化物、镍氧化物、铜氧化物和锌氧化物在忆阻器材料中的组织。赫伦称这种熵稳定氧化物为"原子世界的厨房水槽"添加的元素越多,它就越稳定。通过改变这些氧化物的比例,研究小组获得了 159 到 278 纳秒(即万亿分之一秒)的时间常数。他们构建的简单忆阻器网络学会了识别 0 到 9 数字的发音。一旦经过训练,它就能在音频输入完成之前识别出每个数字。未来展望这些忆阻器是通过能源密集型工艺制造的,因为研究小组需要完美的晶体来精确测量它们的特性,但他们预计,更简单的工艺也适用于大规模制造。赫伦说:"到目前为止,这只是一个愿景,但我认为有一些途径可以使这些材料具有可扩展性,而且价格合理。这些材料是地球上丰富的资源,无毒、廉价,你几乎可以把它们喷洒在上面。"编译来源:ScitechDailyDOI: 10.1038/s41928-024-01169-1 ... PC版: 手机版:

封面图片

苹果今年将使用内部服务器芯片为人工智能工具提供支持

苹果今年将使用内部服务器芯片为人工智能工具提供支持 苹果公司今年将通过配备自有处理器的数据中心提供一些即将推出的人工智能功能,这是为其设备注入人工智能功能的全面努力的一部分。据知情人士透露,该公司正在将高端芯片放置在云计算服务器中,这些服务器旨在处理苹果设备上最先进的人工智能任务。知情人士表示,更简单的人工智能相关功能将直接在 iPhone、iPad 和 Mac 上处理。此举是苹果备受期待的进军生成式人工智能的一部分。该公司正在追赶该领域的大型科技竞争对手,并准备在6月10日的全球开发者大会上制定雄心勃勃的人工智能战略。苹果公司大约三年前就酝酿了使用自己的芯片并在云端处理人工智能任务的计划,但在人工智能热潮迫使其加快步伐后,该公司加快了时间表。首款人工智能服务器芯片将是 M2 Ultra,它于去年作为 Mac Pro 和 Mac Studio 电脑的一部分推出,不过该公司已经在考虑基于 M4 芯片的未来版本。

封面图片

普林斯顿大学的先进AI芯片项目得到了DARPA和 EnCharge AI 的支持

普林斯顿大学的先进AI芯片项目得到了DARPA和 EnCharge AI 的支持 普林斯顿大学的研究人员完全重新想象了计算的物理原理,为现代人工智能工作负载打造了一款芯片,在美国政府的新支持下,他们将看到这款芯片的速度、结构和能效有多快。上图为早期原型。图片来源:Hongyang Jia/普林斯顿大学美国国防部最大的研究机构与普林斯顿大学合作,开发用于人工智能的先进微芯片。电子与计算机工程学教授纳文-维尔马(Naveen Verma)表示,新硬件为现代工作负载重新设计了人工智能芯片,与当今最先进的半导体相比,它能以更低的能耗运行强大的人工智能系统。Verma 将领导这个项目,他说,这些进展突破了阻碍人工智能芯片的关键障碍,包括尺寸、效率和可扩展性。不从笔记本电脑、手机、医院、高速公路到低地球轨道甚至更远的地方,都可以部署能耗更低的芯片来运行人工智能。为当今最先进的模型提供动力的芯片过于笨重且效率低下,无法在小型设备上运行,主要局限于服务器机架和大型数据中心。现在,美国国防部高级研究计划局(Defense Advanced Research Projects Agency,简称 DARPA)宣布,将以维尔马实验室的一系列关键发明为基础,拨款 1860 万美元支持维尔马的工作。DARPA 的资助将推动对新芯片的速度、结构和能效的探索。维尔马说:"最好的人工智能仅仅存在于数据中心,这是一个非常重要的限制。我认为,如果能将其从中解锁,那么我们能从人工智能中获得价值的方式就会爆炸性增长。"纳文-维尔马(Naveen Verma)教授将领导一个由美国支持的项目,在其普林斯顿实验室的一系列关键发明的基础上,为人工智能硬件增效。图片来源:Sameer A. Khan/Fotobuddy这项宣布是 DARPA 为下一代人工智能计算的"科学、设备和系统的革命性进步"提供资金的更广泛努力的一部分。该计划名为 OPTIMA,包括多个大学和公司的项目。该计划的提案征集活动预计资助总额为 7800 万美元,但 DARPA 尚未披露完整的机构名单或该计划迄今为止已发放的资助总额。EnCharge AI 的出现在普林斯顿领导的这个项目中,研究人员将与 Verma 的初创公司EnCharge AI 合作。EnCharge AI 位于加利福尼亚州圣克拉拉市,正在将基于维尔马实验室发现的技术商业化,其中包括他与电气工程研究生共同撰写的几篇关键论文,最早可追溯到 2016 年。根据项目提案,Encharge AI"在开发和执行稳健、可扩展的混合信号计算架构方面具有领先地位"。Verma 于 2022 年与前 IBM 研究员 Kailash Gopalakrishnan 和半导体系统设计领域的领军人物 Echere Iroaga共同创办了这家公司。戈帕拉克里什南说,在人工智能开始对计算能力和效率提出大量新需求的时候,现有计算架构的创新以及硅技术的改进恰恰开始放缓。即使是用于运行当今人工智能系统的最好的图形处理器(GPU),也无法缓解行业面临的内存和计算能源瓶颈。他说:"虽然 GPU 是目前最好的工具,但我们得出结论,需要一种新型芯片来释放人工智能的潜力。"改变人工智能计算格局普林斯顿大学凯勒工程教育创新中心(Keller Center for Innovation in Engineering Education)主任维尔马表示,从2012年到2022年,人工智能模型所需的计算能力增长了约100万倍。为了满足需求,最新的芯片内置了数百亿个晶体管,每个晶体管之间的间隔只有一个小病毒的宽度。然而,这些芯片的计算能力密度仍然不足以满足现代需求。当今的领先模型结合了大型语言模型、计算机视觉和其他机器学习方法,每个模型都使用了超过万亿个变量。英伟达(NVIDIA)设计的 GPU 推动了人工智能的蓬勃发展,如今已变得如此珍贵,据说各大公司都通过装甲车来运输这些 GPU。购买或租赁这些芯片的积压量已达到消失点。当英伟达(NVIDIA)成为史上第三家估值达到 2 万亿美元的公司时,《华尔街日报》报道称,在该公司不断增长的收入中,迅速增加的份额并非来自于开发模型(称为训练),而是来自于芯片,这些芯片使人工智能系统在训练完成后能够投入使用。技术专家将这一部署阶段称为推理。维尔马说,推理是他的研究在中短期内影响最大的领域。"这一切都是为了分散人工智能,将其从数据中心释放出来,"他说。"它必须从数据中心转移到我们和与我们息息相关的流程最能访问计算的地方,那就是手机、笔记本电脑、工厂等这些地方。"创新人工智能芯片技术为了制造出能在紧凑或能源受限的环境中处理现代人工智能工作负载的芯片,研究人员必须彻底重新想象计算的物理原理,同时设计和封装硬件,使其能用现有的制造技术制造,并能与现有的计算技术(如中央处理器)良好配合。"人工智能模型的规模已经爆炸性增长,"维尔马说,"这意味着两件事。人工智能芯片在做数学运算时需要变得更加高效,在管理和移动数据时也需要变得更加高效。"他们的方法有三个关键部分。几乎每台数字计算机的核心架构都遵循着 20 世纪 40 年代首次开发的一种简单得令人难以置信的模式:在一个地方存储数据,在另一个地方进行计算。这意味着信息要在存储单元和处理器之间穿梭。在过去的十年中,维尔马率先研究了一种更新的方法,即直接在存储单元中进行计算,这种方法被称为内存计算。这是第一部分。内存计算有望减少移动和处理大量数据所需的时间和能源。但迄今为止,内存计算的数字方法还非常有限。维尔马和他的团队转向了另一种方法:模拟计算。这是第二部分。"在内存计算的特殊情况下,你不仅需要高效地进行计算,"维尔马说,"还需要以非常高的密度进行计算,因为现在它需要装在这些非常小的存储单元中。模拟计算机并不是将信息编码成一系列的 0 和 1,然后使用传统的逻辑电路来处理这些信息,而是利用设备更丰富的物理特性。齿轮的弧度。导线保持电荷的能力。"20 世纪 40 年代,数字信号开始取代模拟信号,这主要是因为二进制代码能更好地适应计算的指数级增长。但是,数字信号无法深入挖掘设备的物理特性,因此需要更多的数据存储和管理。因此,数字信号的效率较低。模拟信号的效率来自于利用设备的固有物理特性处理更精细的信号。但这可能需要在精度上做出权衡。维尔马说:"关键在于找到合适的物理学原理,并将其应用于可控性极强、可大规模制造的设备中。"他的团队找到了一种方法,可以利用专门设计的电容器产生的模拟信号进行高精度计算,从而实现精确的开关。这是第三部分。与晶体管等半导体器件不同,通过电容器产生的电能并不取决于材料中的温度和电子迁移率等可变条件。"它们只取决于几何形状,"维尔马说。"它们取决于一根金属线与另一根金属线之间的空间。当今最先进的半导体制造技术可以很好地控制几何形状。"编译自:ScitechDaily ... PC版: 手机版:

封面图片

NVIDIA设立新部门 追逐价值300亿美元的定制芯片市场

NVIDIA设立新部门 追逐价值300亿美元的定制芯片市场 据熟悉公司计划的九位消息人士透露,NVIDIA正在建立一个新的业务部门,专注于为云计算公司和其他公司设计定制芯片,包括先进的人工智能处理器。这家全球占主导地位的人工智能芯片设计商和供应商的目标是在定制人工智能芯片爆炸式增长的市场中占据一席之地,并保护自己免受越来越多有意寻找其产品替代品的公司的影响。 PC版: 手机版:

封面图片

清华大学实现芯片领域重要突破!计算能效超现有芯片23个数量级

清华大学实现芯片领域重要突破!计算能效超现有芯片23个数量级 随着人工智能的蓬勃发展,智能光计算作为新兴计算模态,在后摩尔时代展现出远超硅基电子计算的性能与潜力。但最大的痛点是光的计算优势被困在不适合的电架构中,计算规模受到了限制,无法支撑急需高算力与高能效的复杂大模型智能计算。而太极光芯片的计算能效,直接超越了现有智能芯片23个数量级,可以为百亿像素大场景光速智能分析、百亿参数大模型训练推理、毫瓦级低功耗自主智能无人系统提供算力支撑。 ... PC版: 手机版:

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人