【摩尔线程CEO张建中:如何打破摩尔定律,18个月内推出首款GPU芯片?】摩尔线程芯片设计的关键部分来自苹果公司供应商、总部位于

None

相关推荐

封面图片

NVIDIA“最强AI芯片”Blackwell B200 GPU令业内惊呼新的摩尔定律诞生

NVIDIA“最强AI芯片”BlackwellB200GPU令业内惊呼新的摩尔定律诞生在GTC直播中,黄仁勋左手举着B200GPU,右手举着H100此外,将两个B200GPU与单个GraceCPU结合在一起的GB200,可以为LLM推理工作负载提供30倍的性能,并且显著提高效率。黄仁勋还强调称:“与H100相比,GB200的成本和能耗降低了25倍!关于市场近期颇为关注的能源消耗问题,B200GPU也交出了最新的答卷。黄仁勋表示,此前训练一个1.8万亿参数模型,需要8000个HopperGPU并消耗15MW电力。但如今,2000个BlackwellGPU就可以实现这一目标,耗电量仅为4MW。在拥有1750亿参数的GPT-3大模型基准测试中,GB200的性能是H100的7倍,训练速度是H100的4倍。值得一提的是,B200GPU的重要进步之一,是采用了第二代Transformer引擎。它通过对每个神经元使用4位(20petaflopsFP4)而不是8位,直接将计算能力、带宽和模型参数规模翻了一倍。而只有当这些大量的GPU连接在一起时,第二个重要区别才会显现,那就是新一代NVLink交换机可以让576个GPU相互通信,双向带宽高达1.8TB/秒。而这就需要英伟达构建一个全新的网络交换芯片,其中包括500亿个晶体管和一些自己的板载计算:拥有3.6teraflopsFP8处理能力。在此之前,仅16个GPU组成的集群,就会耗费60%的时间用于相互通信,只有40%的时间能用于实际计算。一石激起千层浪,“最强AI芯片”的推出让网友纷纷赞叹。其中英伟达高级科学家JimFan直呼:Blackwell新王诞生,新的摩尔定律已经应运而生。DGXGrace-BlackwellGB200:单个机架的计算能力超过1Exaflop。黄仁勋交付给OpenAI的第一台DGX是0.17Petaflops。GPT-4的1.8T参数可在2000个Blackwell上完成90天的训练。还有网友感叹:1000倍成就达成!Blackwell标志着在短短8年内,NVIDIAAI芯片的计算能力实现了提升1000倍的历史性成就。2016年,“Pascal”芯片的计算能力仅为19teraflops,而今天Blackwell的计算能力已经达到了20000teraflops。相关文章:全程回顾黄仁勋GTC演讲:Blackwell架构B200芯片登场英伟达扩大与中国车企合作为比亚迪提供下一代车载芯片英伟达进军机器人领域发布世界首款人形机器人通用基础模型台积电、新思科技首次采用NVIDIA计算光刻平台:最快加速60倍NVIDIA共享虚拟现实环境技术将应用于苹果VisionPro黄仁勋GTC演讲全文:最强AI芯片Blackwell问世推理能力提升30倍...PC版:https://www.cnbeta.com.tw/articles/soft/1424217.htm手机版:https://m.cnbeta.com.tw/view/1424217.htm

封面图片

Azure AI 入门 (三)摩尔定律,GPU与并行计算

AzureAI入门(三)摩尔定律,GPU与并行计算摩尔定律(图一)是英特尔Intel创始人之一戈登·摩尔的经验之谈,其核心内容为:集成电路IC相同面积上可以容纳的晶体管Transistor数目在18个月到24个月便会增加一倍,因此处理器的性能大约每两年翻一倍,同时价格下降为之前的一半。虽然名为“定律”,但其只是根据20世纪中后期的发展趋势归纳而成。进入21世纪以后,以英特尔为代表的中央处理器CPU的发展趋势渐渐慢于摩尔的预测的。仅依靠单颗处理器的速度提升已无法满足日渐复杂的计算任务,比如3维图形的渲染(3Drendering)。因此,英伟达Nvidia在1999年提出了硬件图形处理器(GraphicsProcessingUnit)的概念,以大量的只能完成某些特殊任务的微处理器,代替少量的通用处理器。软件方面,并行计算也从专业科学领域逐渐向大众领域流行。用一个可能不是最恰当的比方,CPU像是由4位特级厨师组成的小组,可以完成任何烹饪任务,而GPU像是用同样工资请来的128位三明治店的员工。GPU不能做很多事,像完成一些特定的菜,但如果任务是制作2000人份的三明治,GPU一定可以依靠并行计算比CPU完成得快许多。GPU与并行计算的普及,也使得云计算成为了可能。计算机科学家在设计计算任务时通常会首先考虑能否将大任务拆分成能同时进行的更小任务,从而可以同时运行在服务商提供的大量数目的CPU和GPU上。图二英伟达创始人黄仁勋JensenHuang

封面图片

黄仁勋剧透下一代GPU芯片 新演讲又把摩尔定律按在地上摩擦

黄仁勋剧透下一代GPU芯片新演讲又把摩尔定律按在地上摩擦好好好,像做iPhone一样造芯片。到这一代Blackwell为止,英伟达已经把AI模型有效扩展到万亿参数。(还给token定了个译名:词元)。1.8万亿参数GPT4的训练能耗,8年降低至原来的1/350。推理能耗,8年降低至原来的1/45000。看着这一波亮相和剧透,网友真相了:英伟达没有竞争对手,而是选择将摩尔定律放在地上摩擦……老黄是在书写自己的定律。所以应该叫老黄定律?还是英伟达定律?ComputeX前夜,老黄一开场就展开了一波隐形卖货,他自称不太准确的“CEO数学”:买得越多,省得越多……Themoreyoubuy,themoreyousave.经典语录依然引发现场欢呼大笑:虽然不太准确,但好像有些道理……除此之外,还有一些新产品亮相,包括能够模拟气冲的天气预测模型CorriDiff、数字人微服务、BlackWell系统、Spectrum-X、机器人平台Isaac……好了话不多说,这就来看看老黄这次到底搞了哪些事情“AIFactoryIsgenerating”谈到当前新的产业革命,老黄表示:新的计算时代正在开始;而AIFactory正在诞生。他在现场展示了BlackWell系统。3月份GTC大会上还遮遮掩掩地说是GPT-MoE-1.8T模型,这下彻底摊牌了:GPT-4参数就是1.8T。跟DGXHopper相比。现场还看到了它的真身,大概有两米那么高吧…而真正的AIFactory大概会长这样,大概有32000GPU。AI加速每个应用程序AI对于企业的影响,老黄认为AI加速每一个应用程序。他首先谈到了NIM推理微服务,这是一个帮助开发者或者企业轻松构建AI应用,简化大模型部署程序。不管是聊天机器人、还是生活/驾驶助手等,部署时间都能从几周缩短到几分钟。运行MetaLlama3-8B的NIM可以产生比不使用NIM多3倍的tokens。企业和开发者可以使用NIM运行生成文本、图像、视频、语音和数字人类的应用程序。而背后源于丰富的技术合作生态——近200家技术合作伙伴,包括Cadence、Cloudera、Cohesity、DataStax、NetApp、ScaleAI和Synopsys等,正在将NIM集成到他们的平台中。此次在这个NIM中还有上新,也就是ACE生成式AI微服务,数字人AI技术套件。除了原有自动语音识别、文本到语音的转换和翻译、Nemotron语言模型、Audio2Face等套件,还增加了两个技术:一个是可以基于音轨生成身体姿势Audio2Gesture;一个Nemotron-34.5B,这是英伟达首款SLM(小爱语言模型),专为低延迟端侧设备而生。∂接下来,这一数字人微服务将部署在一亿台RTXAIPC上面。当前英伟达在新的合作伙伴,比如华硕、MSI的加入下,已经拥有超过200种RTXAIPC型号。还推出了RTXAIToolkit,一个工具和SDK集合,帮助Windows开发者定制优化本地部署模型。同Mac相比,部署了RTX的Windows的StableDiffusion推理速度是Mac的7倍。每一台带有RTX的PC,都是一台RTXAIPC。用于机器人开发的技术平台Isaac这次一同亮相的,还有用于机器人开发的技术平台,NVIDIAIsaac。为啥搞这玩意儿呢,老黄给出的理由是这样的:机器人时代已经到来。有朝一日,所有会移动的东西,都将实现自主化。这个Isaac平台具体长啥样呢?Isaac平台提供一系列英伟达加速库、AI基础模型和仿真技术,供机器人制造商集成到自己的技术栈中。注意,平台是模块化的,允许公司单独或一起采用多种技术。具体而言,其中包括:NVIDIAIsaacROS:一系列模块化的ROS2包,为ROS社区开发者带来NVIDIA加速和AI模型NVIDIAIsaacPerceptor:一个参考工作流程,提供基于AI的自主移动机器人的多摄像头3D环视能力NVIDIAIsaacManipulator:一个简化AI启用机械臂开发的参考工作流程NVIDIAIsaacSim:一款参考应用程序,用于在基于NVIDIAOmniverse平台的物理环境中模拟、测试和验证机器人,并生成合成数据NVIDIAIsaacLab:IsaacSim中的参考应用程序,针对AI机器人基础模型训练的强化、模仿和迁移学习进行了优化据介绍,目前,包括比亚迪电子、西门子、泰瑞达机器人和Intrinsic(Alphabet的子公司)在内,全球超多名列前茅的机器人开发团队,都在采用Isaac平台。这些团队用上Isaac,一边提高制造工厂、仓库和配送中心的效率,同时确保人类同事的安全;一边也能充当重复劳动和超精确任务的执行者。现场放出了很多demo,很多工厂在英伟达Omniverse里建造了一个完全模拟现实的自助工厂,以及基于Isaac平台开发的AI机器人。官网悄悄推出游戏Agent助手除了现场老黄亲自发布的上述内容外,我们在英伟达官网还找到了一个彩蛋,一个巨久远的callback。ProjectG-Assist。时间回到2017年愚人节,英伟达官网开了个大玩笑:宣称自家发布了一款支持10080款游戏的USB人工智能超算卡GeForceGTXG-Assist。重点在于它很AI。GeForceGTXG-Assist像是个AI游戏助手,可以帮助玩家自动完成游戏操作,甚至代打击败Boss。今天,英伟达真的将这个愚人节玩笑变为现实——英伟达官网上线ProjectG-Assist,一套工具和模型的集合而成的AIAgent系统,供游戏和应用程序开发者使用。通过前后剧情,ProjectG-Assist利用大模型对游戏输出响应,能够检查游戏性能和系统设置,建议用户优化以充分利用可用硬件,或者适当升级角色。玩家这边呢,还可以通过ProjectG-Assist找到最好的武器,也可以查询到最牛的攻略,然后就可以或制作武器材料,或一路杀怪通关。总而言之,ProjectG-Assist可以让人有个Agent外挂,但是不会让你完全挂机,官网还贴心表示:G-Assist项目不会像我们在2017年愚人节预言视频中那样完全替代您玩游戏,但它可以帮助您从您最喜欢的游戏中获得更多收益。游戏体验再上大分!据介绍,ProjectG-Assist支持各种模态的输入。可以是来自玩家的文本提示,或声音指令;可以是屏幕上显示框架的上下文;可以是来自应用程序或系统本身的API。△演示人员语音输入中这些数据都通过连接了游戏知识数据库的大模型处理,然后使用RAG(检索增强生成)生成和用户相关的查询结果——没错,ProjectG-Assist允许玩家使用PC或云端RTXAI驱动的知识库。ProjectG-Assist开发工具将出现在即将推出的RTXAI开发套件中,具体会用在哪些游戏上,还需要游戏开发商来决定并提供支持。为了让大家更好地使用ProjectG-Assist,英伟达贴心地附上视频教学大礼包,需要可自取。OneMoreThing整场发布会,老黄还整了不少活儿。比如AI老黄似乎已经成了发布会常客。在介绍天气预测模型时,他坦白承认在视频中那么流利讲普通话的那位是AI生成的,因为自己中文不太好。而本场重磅的BlackWell系统、AIFactory的核心构成,也被他各种搬来搬去……除了下一代GPU取名Rubin,我们还看到VeraCPU,他们共同出现在新的VeraRubin加速器上。而这一名称来源,实际上是来自美国一位女天文学家VeraRubin,她是研究暗物质先驱。以及,COMPUTEX2024不愧是6月开头就炸场的AI终端大戏。除了黄院士外,英特尔、AMD、高通等老板都悉数到场,接下来几天会挨个发表演讲。这些主题演讲,绝大部分都跟AIPC有关。大家一起蹲一蹲吧~...PC版:https://www.cnbeta.com.tw/articles/soft/1433340.htm手机版:https://m.cnbeta.com.tw/view/1433340.htm

封面图片

为了复活摩尔定律 英特尔决定用玻璃来连接芯片

为了复活摩尔定律英特尔决定用玻璃来连接芯片理由呢,不是玻璃更便宜,也不是更好看,而是他们发现用玻璃做基板的芯片,比有机材料的性能好多了。更直观一点,用玻璃做芯片基板,有这么两个好处:一个是提高芯片中信号传输的效率,另一个是明显提高芯片的密度,进而拉动更好的性能。这在大模型野蛮生长、算力紧缺的现在,算是重磅利好的消息了。英特尔官方还放出豪言,说在在2030 年之前,它们一个封装上的晶体管就能扩展到1万亿个。世超翻出摩尔定律的曲线图,目前一个封装的晶体管极限也就1340 亿个,来自苹果的M2Ultra芯片,1万亿个的数据和它相比,直接将近10 倍。再到曲线图上对一下,还挺符合摩尔定律的。。。看到这里,我猜各位差友心里可能犯这样的嘀咕,玻璃也不是啥罕见的材料,它真有这么大能耐?在回答这个问题之前,我们得先了解一下芯片基板的基础知识。芯片基板,是进行最后一步封装的主角,用来固定上一步从晶圆切好的晶片(Die),基板上固定的晶片越多,整个芯片的晶体管数量自然也就越多。打个比方,整个封装好的芯片相当于是一个城市,如果说基板上晶片是摩天大楼的话,那基板就相当于是串联起这些大楼的公共交通,晶体管就是生活在大楼里的人。要让晶体管也就是整个城市的人更多,就只有两个办法:一个是在现有的公共交通资源下做好城市规划,对应到芯片封装中就是提高工艺。另外一个就是盖更多更高的楼,前提是城市的公共交通系统得全面升级,对应下来就是改变基板的材料。当然在芯片封装发展的过程中,这两个方法是交替来着的。从上世纪70 年代开始起步到现在,芯片基板材料已经经历了两次迭代,最开始的芯片基板靠引线框架来固定晶片。英特尔 4004 芯片英特尔 4004 芯片基板到了二十世纪90 年代,因为有更好的密封性和良好的导热性,陶瓷基板逐渐取代了之前的金属引线框架,在然后在 00 年代,我们现在最常见的有机材料基板出现了。和陶瓷基板相比,有机材料基板不用烧结,加工难度小,还有利于高速信号的传输。所以到目前为止,有机材料基板都被视作是芯片领域的排头兵。但有机材料身上也有缺点,就是它和晶片两个材料之间的热膨胀系数差别太大了。温度低还好,但只要温度稍微过高一点,一个变形程度很大,另外一个很小,晶片和基板之间的连接就会断开。芯片这不就被烧坏了。。。因此为了避免这种情况的发生,有机基板的尺寸一般都不会太大。尺寸小,但想要上面的晶体管变多,就只有在工艺上下功夫了,为此,业内的厂商也都使出了十八般武艺。从原来专注于平面封装到之后开始搞叠叠乐,也就是堆叠式封装。而在堆叠式封装领域,现在也是卷出了天际,经历了多次迭代,已经来到了最先进的硅通孔技术(TSV),就是让硅芯片堆起来,然后穿孔连通。不过现在,无论封装技术再怎么精进再怎么牛,它们面对摩尔定律的发展趋势,都已经开始捉襟见肘了。就拿TSV技术来说,虽然在一定程度上它能让晶体管数量成倍增长,但同时它的技术要求也更高,更不用说成本了。并且,下一代封装技术的要求是:封装尺寸要超过120mm*120mm。上面已经说到,由于有机基板是类似合成树脂的材料组成的,受热容易弯曲。而现在芯片的封装设计都要求晶片个挨个地凑在一起,发热肯定是避免不了的,想要搞更大的封装尺寸用有机材料肯定没戏。这下刀就已经架在了有机基板的头上,反正这命是迟早得革。怎么革,靠谁革?我们在开头就已经给出了答案——玻璃。这里的玻璃并不是说要用纯玻璃做基板,而是把之前之前基板中类似合成树脂的材料替换成玻璃,金属的封边依旧还在,类似下图这种。玻璃当然也不是我们日常用的那种玻璃,而是会通过调整,造出一种和硅的性质接近的玻璃。相较于之前的有机材料,这次替换的玻璃主要看中的是它的三个性能:机械性能、热稳定性和电气性能。首先是机械性能,玻璃基板在机械强度这块是吊打有机基板。玻璃在充当基板材料时,会在上面开孔,保证信号的传输。因为玻璃材料超级平整,要光刻或者封装也更容易,所以同样的面积下,在它上面开的孔的数量要比在有机材料上多得多。就相当于是,在玻璃材料上建的公共交通会比在有机材料上建得更密集、线路也会更加多。据英特尔的说法,玻璃芯通孔之间的间隔能够小于100 微米,这直接能让晶片之间的互连密度提升10 倍。互连密度提升了,相同面积下能容纳的晶体管数量也就更多了。再来是热稳定性,玻璃基板不容易因为温度高而产生翘边或者变形的问题。万一有个特殊情况,玻璃中也含有二氧化硅,和硅的性质接近,它们的热膨胀系数也差不多,就算温度过高,也是基板上的芯片和基板以一样的膨胀速度一起变形。最后就是玻璃芯独特的电气性能,说更准确一点其实是开孔之后的玻璃的电气性能,它的电介质损耗会更低,允许更加清晰的信号和电力传输。这样一来,信号传输过程中的功率损耗就会降低,芯片整体的效率也就自然而然被提上去了。而这些性能综合下来,在最后芯片上的体现就是,用玻璃芯基板封装的话,可放置的芯片数量比其他芯片多50% 。不过还有个问题,既然相较于有机基板,玻璃基板的性能这么好,为什么不早点用玻璃基板呢?其实不是不想用,而是要替换一个材料,可不是那么简单的事儿,前期摸索、中期研发、后期落地,这都是要砸钱、砸时间的。还拿英特尔来说,它在十年前就已经开始研发玻璃芯基板了,前前后后丢在里面的资金少说也有十亿美元。而现在的成果也就是组装好了一套测试工具,要实际量产玻璃芯基板,还得等到2026年往后。当然不止英特尔,整个行业内也有不少企业都在着手搞玻璃基板的研发,毕竟玻璃取代有机材料也算是业内的一个共识。就比如大半年前,日本的DNP也透露正在开发玻璃基板,以替换掉传统的树脂基材,并且他们还定下一个小目标:在2027年之前靠玻璃基板拿下50 亿日元的销售额。要说最早入局玻璃基板的,还得是SKC子公司Absolics,甚至在去年的时候,它就已经投资了6亿美元,打算在乔治亚州科文顿建厂了。按照他们的规划,不出意外今年年底,就有小批量的玻璃基板开始生产了。当然,在短时间内,芯片基板市场的主流还依旧会是有机材料,毕竟技术迭代完成商业化转身也需要一个过渡时期,技术成本、良率等等都是厂商需要解决的问题。不过可以肯定的是,有机材料在芯片基板的舞台上,重要性会逐渐被玻璃取代。...PC版:https://www.cnbeta.com.tw/articles/soft/1387717.htm手机版:https://m.cnbeta.com.tw/view/1387717.htm

封面图片

英特尔继续推进摩尔定律:芯片背面供电,突破互连瓶颈

英特尔继续推进摩尔定律:芯片背面供电,突破互连瓶颈据澎湃新闻,12月9日,英特尔在IEDM2023(2023IEEE国际电子器件会议)上展示了使用背面电源触点将晶体管缩小到1纳米及以上范围的关键技术。英特尔表示将在2030年前实现在单个封装内集成1万亿个晶体管。英特尔表示,其将继续推进摩尔定律的研究进展,包括背面供电和直接背面触点(directbacksidecontacts)的3D堆叠CMOS晶体管,背面供电研发突破的扩展路径(如背面触点),并在同一块300毫米晶圆上(而非封装)中实现硅晶体管与氮化镓(GaN)晶体管的大规模单片3D集成。

封面图片

Nvidia黄仁勋搞革命「GPU效能5年千倍」,亮相AI超级电脑、晶片:打破摩尔定律https://toutiaoqushi.c

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人