清华团队发布中国AI光芯片“太极” 号称受《周易》启发

清华团队发布中国AI光芯片“太极” 号称受《周易》启发 该研究成果于北京时间4月12日凌晨以《大规模光芯片“太极”赋能160 TOPS/W通用人工智能》为题发表在最新一期的《科学》(Science)上。方璐、戴琼海为论文的通讯作者,电子工程系博士生徐智昊、博士后周天贶(清华大学水木学者)为论文第一作者。“挣脱”算力瓶颈的中国光计算睿智尝试作为人工智能的三驾马车之一,算力是训练AI模型、推理任务的关键。倘若把大模型当作是做一道精致的菜肴,算力就好比一套称手的烹饪工具。世人皆知巧妇难为无米之炊,但再好的厨子,没有一口好锅、一把好刀,面对鲜美的食材也只能望而兴叹。光计算,顾名思义是将计算载体从电变为光,利用光在芯片中的传播进行计算,以其超高的并行度和速度,被认为是未来颠覆性计算架构的最有力竞争方案之一。光芯片具备高速高并行计算优势,被寄予希望用来支撑大模型等先进人工智能应用。智能光计算作为新兴计算模态,在后摩尔时代展现出有望超越硅基电子计算的潜力。然而其计算任务局限于简单的字符分类、基本的图像处理等。其痛点是光的计算优势被困在了不适合的电架构中,计算规模受限,无法支撑亟需高算力与高能效的复杂大模型智能计算。行胜于言,直面科研领域痛点问题,帮助光计算“挣脱”算力瓶颈,另辟蹊径,“从0到1”重新设计适合光计算的新架构,是这个清华团队迈出的关键一步。光电智能技术交叉创新团队部分成员合影(左三为戴琼海院士、右二为方璐副教授)从“无极”而至“太极”的双向奔赴从构思到实验,开辟新赛道、做第一个吃螃蟹的人往往都伴随着巨大的困难与压力。每一个研究成果的背后,都凝缩了团队每一位成员的心血,是历经无数失败与彻夜难眠后,结出的那颗最耀眼的结晶。但方璐却将这次科研历程比拟为一场浪漫的“双向奔赴”:从算法架构上自顶向下探索,在硬件芯片设计上自底向上推演。相异于电子神经网络依赖网络深度以实现复杂的计算与功能,“太极”光芯片架构源自光计算独特的‘全连接’与‘高并行’属性,化深度计算为分布式广度计算,为实现规模易扩展、计算高并行、系统强鲁棒的通用智能光计算探索了新路径。据论文第一作者、电子系博士生徐智昊介绍,在“太极”架构中,自顶向下的编码拆分-解码重构机制,将复杂智能任务化繁为简,拆分为多通道高并行的子任务,构建的分布式‘大感受野’浅层光网络对子任务分而治之,突破物理模拟器件多层深度级联的固有计算误差。化“深”为“广”:分布式广度光计算架构团队以周易典籍‘易有太极,是生两仪’为启发,建立干涉-衍射联合传播模型,融合衍射光计算大规模并行优势与干涉光计算灵活重构特性,将衍射编解码与干涉特征计算进行部分/整体重构复用,以时序复用突破通量瓶颈,自底向上支撑分布式广度光计算架构,为片上大规模通用智能光计算探索了新路径。通俗来讲,干涉-衍射的组合方式仿佛就是在拼乐高玩具。乐高积木可以通过一个模块刘海与另一个模块凸起的契合来完成两个组件的拼接。在科研团队眼中,一旦把干涉、衍射变成基础模块,进行重构复用,可以凭借丰富的想象力搭建出变化无穷的造型。两仪一元:干涉-衍射融合计算芯片据论文报道:“太极”光芯片具备879 T MACS/mm²的面积效率与160 TOPS/W的能量效率,首次赋能光计算实现自然场景千类对象识别、跨模态内容生成等人工智能复杂任务。“太极”光芯片有望为大模型训练推理、通用人工智能、自主智能无人系统提供算力支撑。复杂智能任务实验结果展示方璐表示,“之所以将光芯片命名为‘太极’,也是希望可以在如今大模型通用人工智能蓬勃发展的时代,以光子之道,为高性能计算探索新灵感、新架构、新路径 。”学科交叉融合,探索无限可能“太极”光芯片的诞生是多学科交叉碰撞、探索无限的过程。从一个初步设想到打破常规思维、确立科研思路,从理论计算到架构创新,再到模拟试验、现场实测......每一个重大突破性研究,都涉及不同学科高度交叉融合,催生出“0到1”的成果。北京信息科学与技术国家研究中心的光电智能技术交叉创新团队由来自电子系、自动化系、集成电路学院、软件学院的领域学者和专门研究人员组成。在这里,“理学思维融合工科实践,交叉领域践行原始创新”的理念一以贯之,团队始终致力于为中国成为世界科学中心和创新高地贡献出清华力量。和团队的对话中,“初心”和“坚持”两个词语,被多人反复提及。恰如团队成员所言,“科学研究是一个厚积薄发的过程,不是一蹴而就的,就像在黑暗中来回摸索,可能会经历反复失败,但一定要坚持自己的初心。”一次次“推翻重来”“背水一战”的底气背后,是什么支撑着团队的坚持求索?答案是:良好的学术环境和有组织科研的全方位保障。2021年4月19日,习近平总书记在清华大学考察时强调,重大原始创新成果往往萌发于深厚的基础研究,产生于学科交叉领域,大学在这两方面具有天然优势。要保持对基础研究的持续投入,鼓励自由探索,敢于质疑现有理论,勇于开拓新的方向。“当时,我有幸参与向总书记汇报团队的科研进展,在现场聆听总书记的嘱托。”三年过去,方璐和许多清华人一样,是亲历者、践行者,更是答卷人。方璐认为,这次突破性科研成果的成功取得,是清华大学深入推进有组织科研的一次生动实践。该课题受到科技部2030“新一代人工智能”重大项目、国家自然科学基金委杰青项目、基础科学中心项目,清华大学-之江实验室联合研究中心支持。在合作者中,有来自各个学科、不同背景的成员。他们集思广益,多学科、多角度地探索更多解决途径。跨界交叉、深度融合,创新的火花在学科碰撞中不断迸发,为科研团队厚植基础、勇攀高峰提供了新动能。 ... PC版: 手机版:

相关推荐

封面图片

清华大学实现芯片领域重要突破!计算能效超现有芯片23个数量级

清华大学实现芯片领域重要突破!计算能效超现有芯片23个数量级 随着人工智能的蓬勃发展,智能光计算作为新兴计算模态,在后摩尔时代展现出远超硅基电子计算的性能与潜力。但最大的痛点是光的计算优势被困在不适合的电架构中,计算规模受到了限制,无法支撑急需高算力与高能效的复杂大模型智能计算。而太极光芯片的计算能效,直接超越了现有智能芯片23个数量级,可以为百亿像素大场景光速智能分析、百亿参数大模型训练推理、毫瓦级低功耗自主智能无人系统提供算力支撑。 ... PC版: 手机版:

封面图片

清华大学研究超高速光电模拟芯片:“挣脱”摩尔定律,算力提升 3000 倍

清华大学研究超高速光电模拟芯片:“挣脱”摩尔定律,算力提升 3000 倍 清华大学自动化系戴琼海院士、吴嘉敏助理教授与电子工程系方璐副教授、乔飞副研究员联合攻关,提出了一种“挣脱”摩尔定律的全新计算架构:光电模拟芯片,算力达到目前高性能商用芯片的3000余倍。相关成果以“高速视觉任务中的纯模拟光电芯片”(All-analog photo-electronic chip for high-speed vision tasks)为题,以(article)形式发表在《自然》(Nature)期刊上。如果用交通工具的运行时间来类比芯片中信息流计算的时间,那么这枚芯片的出现,相当于将京广高铁8小时的运行时间缩短到8秒钟。 在这枚小小的芯片中,清华大学攻关团队创造性地提出了光电深度融合的计算框架。从最本质的物理原理出发,结合了基于电磁波空间传播的光计算,与基于基尔霍夫定律的纯模拟电子计算,“挣脱”传统芯片架构中数据转换速度、精度与功耗相互制约的物理瓶颈,在一枚芯片上突破大规模计算单元集成、高效非线性、高速光电接口三个国际难题。 实测表现下,光电融合芯片的系统级算力较现有的高性能芯片架构提升了数千倍。然而,如此惊人的算力,还只是这枚芯片诸多优势的其中之一。 在研发团队演示的智能视觉任务和交通场景计算中,光电融合芯片的系统级能效(单位能量可进行的运算数)实测达到了74.8 Peta-OPS/W,是现有高性能芯片的400万余倍。形象地说,原本供现有芯片工作一小时的电量,可供它工作500多年。

封面图片

推荐一个非常宝藏的信息源: 清华大学 AMiner联合清华-中国工程院知识智能联合研究中心、智谱AI共建的。

推荐一个非常宝藏的信息源: 清华大学 AMiner联合清华-中国工程院知识智能联合研究中心、智谱AI共建的。 1、每日最新论文智能筛选&总结:追踪机构、 追踪学者、追踪Topic、设置生成总结的 prompt,推动到邮箱。 3、最棒的功能:AI2000全球人工智能学者,涵盖学术圈和产业圈。 例如可以直接搜索并看到llya Sutskever,所有的论文、专利,研究兴趣的变化、合作者和合作机构 - 可以查学术和产业机构,有哪些学者在。但是这个企业机构的数据是有些滞后的,一些变动并没有提现。 -可以根据领域和子领域去看这里面的顶尖学者有哪些。 AI2000 榜单基于 AMiner 科技情报大数据挖掘与服务系统平台,通过分析经典人工智能(AAAI/IJCAI)、机器学习、计算机视觉、自然语 言处理、机器人、知识工程、语音识别、数据挖掘、信息检索与推荐、数据库、人机交互、计算机图形、多媒体、可视化、安全与隐私、计算机网络、操作系统、计算理论、芯片技术和物联网等 20 个人工智能子领域的顶刊/顶会论文作者信息,按学者学术影响力得分从高到低排序,遴选排名靠前的 100 位学者。 3、大模型周报和人工智能发展月报、优秀论文集推荐。Chat Ranking和AMiner的科研问答助手

封面图片

北航本科生芯片设计团队打造基于龙架构的Lain和EULA处理器

北航本科生芯片设计团队打造基于龙架构的Lain和EULA处理器 其中,Lain处理器侧重于验证多发射、乱序、多核等现代CPU主流微架构技术,EULA处理器则侧重于验证芯片敏捷开发环境及其全流程设计支持。本次北航成功流片是基于“北航-龙芯百芯计划”实现,该计划于2020年正式启动,以本科生开发和流片为目标导向,由计算机学院主导,联合集成电路学院、软件学院,共同探索与实践跨学院、跨学科、跨专业的交叉学科人才培养模式。为国家培养具备从CPU、操作系统、编译器到芯片实现等全流程能力的紧缺拔尖创新人才。龙芯中科首席架构师汪文祥表示:“此次北航本科生芯片设计团队完成了从CPU核心、SoC芯片的硬件前后端设计,直至操作系统、编译器乃至应用程序的软件开发任务,贯通了整个处理器芯片设计的技术栈,彰显出极高的完成度,实现了国产自主可控处理器芯片设计能力的全栈式贯通。” ... PC版: 手机版:

封面图片

倪光南院士:RISC-V 已成中国最受欢迎芯片架构

倪光南院士:RISC-V 已成中国最受欢迎芯片架构 2023 年 RISC-V 中国峰会日前在京开幕,中国工程院院士倪光南,RISC-V 国际基金会 CEO 卡莉斯塔・雷德蒙德,峰会主席、中国科学院软件研究所副所长武延军,中国科学院计算技术研究所副所长包云岗出席峰会开幕式并致辞,卡莉斯塔・雷德蒙德在大会上做了主旨报告。 在会中,倪光南院士表示,“RISC-V 的未来在中国,而中国半导体芯片产业也需要 RISC-V,开源的 RISC-V 已成为中国业界最受欢迎的芯片架构”。 倪光南同时表示,中国愿意拥抱开源,和世界协同创新,鼎力打造强大繁荣的 RISC-V 生态,有力支撑 RISC-V 跻身于世界主流 CPU 行列。附: 频道:@kejiqu 群组:@kejiquchat 投稿:@kejiqubot

封面图片

斯坦福AI团队抄袭国产大模型?清华系团队发文回应

斯坦福AI团队抄袭国产大模型?清华系团队发文回应 一开始团队面对抄袭质疑还嘴硬否认,只承认使用了MiniCPM-Llama3-V的分词器,后来证据越来越多不仅架构和代码高度相似,而且被发现作者曾在Hugging Face导入MiniCPM-V的代码,然后改名成Llama3-V。最绝的是Llama3-V连国产AI模型的“胎记”都抄走了,跟MiniCPM-V一样能识别清华战国竹简“清华简”,而且连出错的样例、在高斯扰动验证后的正确和错误表现方面都高度相似。而基于非公开训练数据的清华简识别能力,是面壁MiniCPM团队耗时数月、从卷帙浩繁的清华简中逐字扫描并逐一数据标注,融入模型中的。面对铁一般的证据,Llama3-V团队终于立正挨打,一套道歉流程行云流水,火速删库、发文致歉外加撇清关系。其中来自斯坦福计算机科学专业的两位作者澄清说他们并未参与代码工作,所有代码都是毕业于南加州大学的Mustafa Aljadery负责的,他一直没交出训练代码。▲Llama3-V作者:Siddharth Sharma(左)、Aksh Garg(中)、Mustafa Aljadery(右)这样看来,Llama3-V团队并不能算严格意义上的斯坦福团队,不过因为此事声誉受损的斯坦福大学至今没有采取任何公开措施。面壁智能团队的回应很有涵养。今日,面壁智能联合创始人兼CEO李大海在朋友圈回应说“深表遗憾”,这也是一种“受到国际团队认可的方式”,并呼吁大家共建开放、合作、有信任的社区环境。一、网友细数五大证据,作者删库跑路、不打自招Llama3-V的模型代码与MiniCPM-Llama3-V 2.5高度相似,同时其项目页面没有出现任何与MiniCPM-Llama3-V 2.5相关的声明。公开的基准测试结果显示,Llama3-V在所有基准测试中优于GPT-3.5,在多个基准测试中优于GPT-4,且模型尺寸是GPT-4V的1/100,预训练成本为500美元。这也使得该模型一经就冲上Hugging Face首页。但当细心网友发现Llama3-V疑似“套壳”面壁智能此前发布的开源多模态模型MiniCPM-Llama3-V 2.5,在评论区发表评论后,Llama3-V项目作者最初否认抄袭,并称他们的项目开始时间先于MiniCPM-Llama3-V 2.5发布,只是使用了MiniCPM-Llama3-V 2.5的分词器。当网友抛出三大事实质疑后,Llama3-V的做法是不回应直接删除网友评论。昨日下午,网友在MiniCPM-V页面下将事情经过全部公开,并公开@面壁智能让其项目团队投诉。当日晚间,面壁智能研发人员发布推文,其验证结果也印证了网友的说法,Llama3-V与MiniCPM-Llama3-V 2.5高度相似。同时公开喊话Llama3-V研发团队:“鉴于这些结果,我们担心很难用巧合来解释这种不寻常的相似性。我们希望作者能够对这个问题给出官方解释,相信这对开源社区的共同利益很重要。”以下就是Llama3-V被质疑抄袭MiniCPM-Llama3-V 2.5的五大证据:1、Llama3-V的代码是对MiniCPM-Llama3-V 2.5的重新格式化,其模型行为检查点的噪声版本高度相似。其中,Llama3-V只是对代码进行了重新格式化和变量重命名,包括但不限于图像切片、标记器、重采样器和数据加载。面壁智能研发人员也证实,Llama3-V有点类似于MiniCPM-Llama3-V 2.5的噪声版本。2、起初网友在Llama3-V的Hugging Face页面质疑抄袭时,其作者回应称只是使用了其分词器,并且项目开始时间比MiniCPM-Llama3-V 2.5更早。当网友进一步询问如何在MiniCPM-Llama3-V 2.5发布前使用其分词器,作者给出的答案是使用了MiniCPM-V-2的分词器,但很明显,两个版本的分词器完全不同。3、Llama3-V提供的代码无法与Hugging Face的检查点兼容。但网友将Llama3-V模型权重中的变量名称更改为MiniCPM-Llama3-V 2.5的名称后,该模型可以与MiniCPM-V代码一起运行。面壁智能的研发人员的调查结果也显示:更改参数名称后,可以使用MiniCPM-Llama3-V 2.5的代码和config.json运行Llama3-V。4、Llama3-V项目的作者害怕面对质疑,删除了质疑者在Llama3-V上提交的质疑他们偷窃的问题。并且目前Llama3-V项目已经从开源网站中下架删除。5、在一些未公开的实验性特征上,比如在内部私有数据上训练的古汉字清华竹简,Llama3-V表现出与MiniCPM-Llama3-V 2.5高度相似的推理结果。这些训练图像是最近从出土文物中扫描并由面壁智能的团队注释的,尚未公开发布。例如下图中的几个古汉字识别:MiniCPM-Llama3-V 2.5中未公开的WebAgent功能上,在框选内容大小时,Llama3-V与之犯了相同的错误:二、仨作者内讧,Aljadery全权负责写代码,但拿不出训练代码昨天,Aksh Garg、Siddharth Sharma在外媒Medium上公开回应:“非常感谢在评论中指出(Llama3-V)与之前研究相似之处的人。我们意识到我们的架构与OpenBMB的‘MiniCPM-Llama3-V2.5:手机上的GPT-4V级多模态大模型’非常相似,他们在实现方面领先于我们。为了尊重作者,我们删除了原始模型。”Aljadery没有出现在声明中。▲Aksh Garg、Siddharth Sharma的回应声明Mustafa曾在南加州大学从事深度学习研究,并在麻省理工学院从事并行计算研究,拥有南加州大学计算机科学学士学位和计算神经科学理学士学位,目前其没有在公司任职。Garg在社交平台X中发布的致歉声明中提到,Mustafa全权负责编写Llama3-V的代码,他与Sharma因忙于全职工作并未参与代码编写。在听取了Mustafa描述的Idefics、SigLip等架构扩展创新、查看了最新论文后,他们二人就在未被告知该项目与开源代码关系的情况下,帮助Mustafa在外媒Medium和社交平台X对Llama3-V进行了宣传推广。在昨天看到关于Llama3-V的抄袭指控后,Garg和Sharma就与Mustafa进行了原创性讨论,并要求他提供训练代码,但目前未收到任何相关证据。目前,Aljadery的Twitter账号显示“只有获得批准的关注者才能看到”。三、首个基于Llama-3构建的多模态大模型此前,Garg在介绍Llama3-V的文章中提到,Llama3-V是首个基于Llama-3构建的多模态大模型,训练费用不到500美元。并且与多模态大模型Llava相比,Llama3-V性能提升了10-20%。除了MMMU之外,Llama3-V在所有指标上的表现都与大小为其100倍的闭源模型非常相近。他们所做的就是让Llama 3能理解视觉信息。Llama3-V采用SigLIP模型获取输入图像并将其嵌入到一系列块嵌入中。然后,这些嵌入通过投影块与文本标记对齐,投影块应用两个自注意力块将文本和视觉嵌入放在同一平面上。最后,投影块中的视觉标记就被添加到文本标记前面,并将联合表示传递给Llama 3。结语:Llama3-V套壳实锤,或损害开源社区健康发展不论从网友的质疑还是Llama3-V作者的回应来看,该模型套壳MiniCPM-Llama3-V2.5已经基本实锤,高度相似的代码以及部分基于面壁智能内部未公开训练数据训练的功能,都证明这两大模型的相似性。目前来看,对于大模型“套壳”没有明确的界定,但开源大模型以及开源社区的构建本意是促进技术的共享和交流,加速AI的发展,但如果以这种直接“套壳”、更改变量的形式使用,或许会与这一发展愿景背道而驰,损害开源社区的健康发展。 ... PC版: 手机版:

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人