清华大学实现芯片领域重要突破!计算能效超现有芯片23个数量级

清华大学实现芯片领域重要突破!计算能效超现有芯片23个数量级 随着人工智能的蓬勃发展,智能光计算作为新兴计算模态,在后摩尔时代展现出远超硅基电子计算的性能与潜力。但最大的痛点是光的计算优势被困在不适合的电架构中,计算规模受到了限制,无法支撑急需高算力与高能效的复杂大模型智能计算。而太极光芯片的计算能效,直接超越了现有智能芯片23个数量级,可以为百亿像素大场景光速智能分析、百亿参数大模型训练推理、毫瓦级低功耗自主智能无人系统提供算力支撑。 ... PC版: 手机版:

相关推荐

封面图片

中国研发祖冲之三号量子计算机 声称快过 Google 悬铃木 6 个数量级

中国研发祖冲之三号量子计算机 声称快过 Google 悬铃木 6 个数量级 中国科学技术大学等研究团队成功研发出祖冲之三号超导量子计算原型机,具备105个可读取比特及182个耦合比特,于量子随机线路采样任务中展现超卓性能。 该原型机处理速度比目前最快超级计算机高出15个数量级,超越Google于2024年10月发表的最新成果6个数量级。 此突破于 2025 年 3 月 3 日以封面论文形式刊登于《物理评论快报》。 #高科技 #吃瓜 #新闻 #曝光

封面图片

清华大学研究超高速光电模拟芯片:“挣脱”摩尔定律,算力提升 3000 倍

清华大学研究超高速光电模拟芯片:“挣脱”摩尔定律,算力提升 3000 倍 清华大学自动化系戴琼海院士、吴嘉敏助理教授与电子工程系方璐副教授、乔飞副研究员联合攻关,提出了一种“挣脱”摩尔定律的全新计算架构:光电模拟芯片,算力达到目前高性能商用芯片的3000余倍。相关成果以“高速视觉任务中的纯模拟光电芯片”(All-analog photo-electronic chip for high-speed vision tasks)为题,以(article)形式发表在《自然》(Nature)期刊上。如果用交通工具的运行时间来类比芯片中信息流计算的时间,那么这枚芯片的出现,相当于将京广高铁8小时的运行时间缩短到8秒钟。 在这枚小小的芯片中,清华大学攻关团队创造性地提出了光电深度融合的计算框架。从最本质的物理原理出发,结合了基于电磁波空间传播的光计算,与基于基尔霍夫定律的纯模拟电子计算,“挣脱”传统芯片架构中数据转换速度、精度与功耗相互制约的物理瓶颈,在一枚芯片上突破大规模计算单元集成、高效非线性、高速光电接口三个国际难题。 实测表现下,光电融合芯片的系统级算力较现有的高性能芯片架构提升了数千倍。然而,如此惊人的算力,还只是这枚芯片诸多优势的其中之一。 在研发团队演示的智能视觉任务和交通场景计算中,光电融合芯片的系统级能效(单位能量可进行的运算数)实测达到了74.8 Peta-OPS/W,是现有高性能芯片的400万余倍。形象地说,原本供现有芯片工作一小时的电量,可供它工作500多年。

封面图片

清华大学集成电路学院教授魏少军:依靠工艺技术进步已几乎无法实现更高性能的计算

清华大学集成电路学院教授魏少军:依靠工艺技术进步已几乎无法实现更高性能的计算 今日中国半导体行业协会IC设计分会理事长、清华大学集成电路学院教授魏少军在以“创芯未来 共筑生态”为主题的2023中国临港国际半导体大会上对记者表示,当前依靠工艺技术进步几乎无法实现更高性能的计算,特别是从现有计算芯片的主流路线推演,已难以满足Z级超算的性能、功耗和成本需求,需要研发新的计算芯片架构来应对智能化、大算力的新挑战。 来源:

封面图片

清华团队发布中国AI光芯片“太极” 号称受《周易》启发

清华团队发布中国AI光芯片“太极” 号称受《周易》启发 该研究成果于北京时间4月12日凌晨以《大规模光芯片“太极”赋能160 TOPS/W通用人工智能》为题发表在最新一期的《科学》(Science)上。方璐、戴琼海为论文的通讯作者,电子工程系博士生徐智昊、博士后周天贶(清华大学水木学者)为论文第一作者。“挣脱”算力瓶颈的中国光计算睿智尝试作为人工智能的三驾马车之一,算力是训练AI模型、推理任务的关键。倘若把大模型当作是做一道精致的菜肴,算力就好比一套称手的烹饪工具。世人皆知巧妇难为无米之炊,但再好的厨子,没有一口好锅、一把好刀,面对鲜美的食材也只能望而兴叹。光计算,顾名思义是将计算载体从电变为光,利用光在芯片中的传播进行计算,以其超高的并行度和速度,被认为是未来颠覆性计算架构的最有力竞争方案之一。光芯片具备高速高并行计算优势,被寄予希望用来支撑大模型等先进人工智能应用。智能光计算作为新兴计算模态,在后摩尔时代展现出有望超越硅基电子计算的潜力。然而其计算任务局限于简单的字符分类、基本的图像处理等。其痛点是光的计算优势被困在了不适合的电架构中,计算规模受限,无法支撑亟需高算力与高能效的复杂大模型智能计算。行胜于言,直面科研领域痛点问题,帮助光计算“挣脱”算力瓶颈,另辟蹊径,“从0到1”重新设计适合光计算的新架构,是这个清华团队迈出的关键一步。光电智能技术交叉创新团队部分成员合影(左三为戴琼海院士、右二为方璐副教授)从“无极”而至“太极”的双向奔赴从构思到实验,开辟新赛道、做第一个吃螃蟹的人往往都伴随着巨大的困难与压力。每一个研究成果的背后,都凝缩了团队每一位成员的心血,是历经无数失败与彻夜难眠后,结出的那颗最耀眼的结晶。但方璐却将这次科研历程比拟为一场浪漫的“双向奔赴”:从算法架构上自顶向下探索,在硬件芯片设计上自底向上推演。相异于电子神经网络依赖网络深度以实现复杂的计算与功能,“太极”光芯片架构源自光计算独特的‘全连接’与‘高并行’属性,化深度计算为分布式广度计算,为实现规模易扩展、计算高并行、系统强鲁棒的通用智能光计算探索了新路径。据论文第一作者、电子系博士生徐智昊介绍,在“太极”架构中,自顶向下的编码拆分-解码重构机制,将复杂智能任务化繁为简,拆分为多通道高并行的子任务,构建的分布式‘大感受野’浅层光网络对子任务分而治之,突破物理模拟器件多层深度级联的固有计算误差。化“深”为“广”:分布式广度光计算架构团队以周易典籍‘易有太极,是生两仪’为启发,建立干涉-衍射联合传播模型,融合衍射光计算大规模并行优势与干涉光计算灵活重构特性,将衍射编解码与干涉特征计算进行部分/整体重构复用,以时序复用突破通量瓶颈,自底向上支撑分布式广度光计算架构,为片上大规模通用智能光计算探索了新路径。通俗来讲,干涉-衍射的组合方式仿佛就是在拼乐高玩具。乐高积木可以通过一个模块刘海与另一个模块凸起的契合来完成两个组件的拼接。在科研团队眼中,一旦把干涉、衍射变成基础模块,进行重构复用,可以凭借丰富的想象力搭建出变化无穷的造型。两仪一元:干涉-衍射融合计算芯片据论文报道:“太极”光芯片具备879 T MACS/mm²的面积效率与160 TOPS/W的能量效率,首次赋能光计算实现自然场景千类对象识别、跨模态内容生成等人工智能复杂任务。“太极”光芯片有望为大模型训练推理、通用人工智能、自主智能无人系统提供算力支撑。复杂智能任务实验结果展示方璐表示,“之所以将光芯片命名为‘太极’,也是希望可以在如今大模型通用人工智能蓬勃发展的时代,以光子之道,为高性能计算探索新灵感、新架构、新路径 。”学科交叉融合,探索无限可能“太极”光芯片的诞生是多学科交叉碰撞、探索无限的过程。从一个初步设想到打破常规思维、确立科研思路,从理论计算到架构创新,再到模拟试验、现场实测......每一个重大突破性研究,都涉及不同学科高度交叉融合,催生出“0到1”的成果。北京信息科学与技术国家研究中心的光电智能技术交叉创新团队由来自电子系、自动化系、集成电路学院、软件学院的领域学者和专门研究人员组成。在这里,“理学思维融合工科实践,交叉领域践行原始创新”的理念一以贯之,团队始终致力于为中国成为世界科学中心和创新高地贡献出清华力量。和团队的对话中,“初心”和“坚持”两个词语,被多人反复提及。恰如团队成员所言,“科学研究是一个厚积薄发的过程,不是一蹴而就的,就像在黑暗中来回摸索,可能会经历反复失败,但一定要坚持自己的初心。”一次次“推翻重来”“背水一战”的底气背后,是什么支撑着团队的坚持求索?答案是:良好的学术环境和有组织科研的全方位保障。2021年4月19日,习近平总书记在清华大学考察时强调,重大原始创新成果往往萌发于深厚的基础研究,产生于学科交叉领域,大学在这两方面具有天然优势。要保持对基础研究的持续投入,鼓励自由探索,敢于质疑现有理论,勇于开拓新的方向。“当时,我有幸参与向总书记汇报团队的科研进展,在现场聆听总书记的嘱托。”三年过去,方璐和许多清华人一样,是亲历者、践行者,更是答卷人。方璐认为,这次突破性科研成果的成功取得,是清华大学深入推进有组织科研的一次生动实践。该课题受到科技部2030“新一代人工智能”重大项目、国家自然科学基金委杰青项目、基础科学中心项目,清华大学-之江实验室联合研究中心支持。在合作者中,有来自各个学科、不同背景的成员。他们集思广益,多学科、多角度地探索更多解决途径。跨界交叉、深度融合,创新的火花在学科碰撞中不断迸发,为科研团队厚植基础、勇攀高峰提供了新动能。 ... PC版: 手机版:

封面图片

AMD CEO 认为计算机领域的下一个最重要挑战是能效

AMD CEO 认为计算机领域的下一个最重要挑战是能效 AMD CEO 苏姿丰(Lisa Su)在 IEEE ISSCC 会议上指出,未来十年计算机领域的最重要挑战将是能效。摩尔定律预测的芯片性能增长速度虽然放缓了,但今天的芯片计算能力仍然能每两年半翻一番,超算翻倍所需的时间更短。然而计算机的能效并没有跟上这一步伐,十年后未来的超算可能需要多达 500 兆瓦的电力。她说,没人真正知道如何实现下一个运算千倍增长的 zetta 级超算,这必定需要全面的改进效率,不仅包括改进芯片的能效,还需要高效的芯片间通信和低功耗的内存访问。苏姿丰谈论了 AMD 在数据中心 APU MI300 上采取的改进能效的众多措施。 来源 , 来自:雷锋 频道:@kejiqu 群组:@kejiquchat 投稿:@kejiqubot

封面图片

AMD公布疯狂芯片提效计划 用能效挑战英伟达会成功吗?

AMD公布疯狂芯片提效计划 用能效挑战英伟达会成功吗? 而在获奖后的演讲中,苏姿丰透露了AMD未来三年的计划,一个充满野心的计划:AMD正在努力实现2025年将计算能效提高到2020年的30倍的计划,而在这个计划之后,还有在2027年将能效提高到100倍(相对于2020年)的目标。图源:AMD计算能效,简单来说就是指计算机在执行计算任务时,利用能源的有效程度,虽然在各种算力、核心数等性能参数面前,计算能效看起来不太起眼,实质上却是核心性能、功耗管理、制程工艺等技术的体现。更高的计算能效,能够让计算机系统在运行时有着更高的效率,早在2014年,AMD就曾经设定过一个名为“25x20”的计划,希望用6年时间将AMD的处理器、显卡等产品的能效提高25倍。这个计划的结果,就是我们现在所熟知的Zen架构和RDNA架构,凭借两个架构的出色表现,AMD在2020年不仅完成了既定的目标,还超额做到了31.77倍的能效提升。AMD为何一直将计算能效提升作为核心目标之一?首先,我们从目前的AI运算需求出发,看看计算能效提升会带来什么?狂奔的超级计算中心众所周知,AI已经成为当前半导体业界最核心、最庞大的需求,这个需求正在驱动着半导体战车的车轮滚滚向前。前段时间,作为AI时代的领航者,半导体公司英伟达的市值就一度达到2.62万亿美元,甚至超过了德国所有上市公司的市值总和。让英伟达市值暴涨的唯一原因,就是其在AI计算硬件领域的统治级实力,目前全球最顶尖的专业计算卡均出自英伟达,除了主流的H100、H200等芯片外,英伟达前段时间又发布了GB100和GB200,仅单个芯片的算力就相当于以前的一台超级计算机。当然,强大的算力背后并不是没有代价的,H100的TDP高达700W,而最新的GB200的TDP更是高达2700W。而英伟达提供的官方方案中,单个GB200 NVL72服务器就可以搭载最高36个GB200芯片,仅芯片本身的功耗就最高可达97200W,并且不包括配套的其他硬件功耗。这还仅仅是开始,一个超级计算中心往往由多个服务器单元组合而成,亚马逊此前就公布了一项计划,预计采购2万个GB200用来组建一个全新的服务器集群。而走在AI研究最前沿的微软和OpenAI,前段时间更是公布了一个雄心勃勃的计划星际之门。据悉,该计划共分为五个阶段,目的是建造一个人类历史上最大的超级计算中心,预计整个计划的投资将达到1150亿美元,建成后将需要数十亿瓦的电力支持。这座‘星际之门’建成后,仅以耗电量算就足以在全球各大城市中排名前20,更何况它还只是众多计算中心的一员而已。实际上,早在去年开始,就有多份报告指出计算中心的耗电量正在猛增,并且一度导致美国部分城市出现电力供应不足的问题。从能源角度来说,一座发电厂从选址到建成运行,往往需要数年的时间,如果遇到环保组织的抗议,还有可能拖延更久。在能源问题短时间内无法解决的情况下,提高计算能效就是唯一的方法,通过更高效地利用每瓦时电力来维持更大规模的AI模型训练。实际上,有人认为OpenAI的ChatGPT-5进展缓慢,很大程度上就是受限于算力规模无法大幅度提升。苏姿丰在演讲中也提到,提高计算能效可以更好地解决能源与算力之间的矛盾,并且让超级计算中心可以被部署到更多的地方。在一些AI企业的构想中,未来每一座城市都应该拥有自己的超级AI中心,负责处理智能驾驶、城市安全等各方面的AI需求。想要达成这个目标,同时不显著增加城市的能源负担,更高计算能效的显卡就是唯一的解决方案。而且,计算能效也直接关系到AI计算的成本,只有将AI计算的成本降到更低,大面积普及AI才可能成为现实。AMD的疯狂计划在英伟达的刺激下,作为在GPU领域唯一能够与英伟达抗衡的企业,AMD一直在加速推进旗下AI芯片的研发与上市进度,并先后发布了MI300、V80等多款专业运算卡。据报道,为了能够加速AI芯片的进度,苏姿丰对GPU团队进行重组,抽调大量人员支持AI芯片的研发,以至于下一代的AMD消费级显卡发布计划受到严重影响,比如取消原定的旗舰产品发布计划,仅保留中端显卡的发布计划等。在集中科研力量后,AMD目前的进展速度飞快,最新的MI300X在性能上已经超过英伟达的H100,大多42 petaFLOPs,并且拥有高达192GB的显存,功耗却与H100相当,仅为750W。凭借优异的计算能效,MI300X成功引起了市场的关注,微软、OpenAI、亚马逊等科技巨头都提交了采购需求,让AMD在计算领域的芯片出货量暴增。根据相关机构预测,2024年AMD的AI芯片出货量可能达到英伟达出货量的10%,并在明年增长至30%。据苏姿丰介绍,为了能够提高芯片的计算能效,AMD研发了多项新的技术,比如2.5D/3D混合封装技术。利用这项技术,AMD可以在封装面积不变的前提下给芯片塞入更多的晶体管和内存,降低芯片与内存交换数据的消耗,有效提升每瓦时的计算性能。此外,AMD还将改进芯片架构,推出能效更高的新一代架构,预计最快将于2025年发布,并实现25x30(2025年计算能效提升30倍)的目标。不过,想要实现27x100(2027年计算能效提升100倍)的目标,还需要在诸多领域做出提升,仅靠制程工艺升级和架构升级恐怕还不太够。不得不说,AMD的这个计划非常疯狂,一旦成功,那么AMD将有望再次与英伟达并肩而行。那么英伟达的反应是什么?其实英伟达很早就给出了回应,早前发布的GB200就是答案,这颗史无前例的算力怪物在计算能效方面的提升同样瞩目。据英伟达的介绍,GB200的推理性能是H100的30倍,计算能效是H100的25倍(综合考虑算力、功耗等参数后的结果)。显然,英伟达的脚步也并不慢,在接下来的3年时间里,不管AMD能否完成疯狂的百倍计划,AI芯片市场都会迎来一场革新。 ... PC版: 手机版:

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人