Nvidia黄仁勋搞革命「GPU效能5年千倍」,亮相AI超级电脑、晶片:打破摩尔定律https://toutiaoqushi.c

None

相关推荐

封面图片

NVIDIA“最强AI芯片”Blackwell B200 GPU令业内惊呼新的摩尔定律诞生

NVIDIA“最强AI芯片”BlackwellB200GPU令业内惊呼新的摩尔定律诞生在GTC直播中,黄仁勋左手举着B200GPU,右手举着H100此外,将两个B200GPU与单个GraceCPU结合在一起的GB200,可以为LLM推理工作负载提供30倍的性能,并且显著提高效率。黄仁勋还强调称:“与H100相比,GB200的成本和能耗降低了25倍!关于市场近期颇为关注的能源消耗问题,B200GPU也交出了最新的答卷。黄仁勋表示,此前训练一个1.8万亿参数模型,需要8000个HopperGPU并消耗15MW电力。但如今,2000个BlackwellGPU就可以实现这一目标,耗电量仅为4MW。在拥有1750亿参数的GPT-3大模型基准测试中,GB200的性能是H100的7倍,训练速度是H100的4倍。值得一提的是,B200GPU的重要进步之一,是采用了第二代Transformer引擎。它通过对每个神经元使用4位(20petaflopsFP4)而不是8位,直接将计算能力、带宽和模型参数规模翻了一倍。而只有当这些大量的GPU连接在一起时,第二个重要区别才会显现,那就是新一代NVLink交换机可以让576个GPU相互通信,双向带宽高达1.8TB/秒。而这就需要英伟达构建一个全新的网络交换芯片,其中包括500亿个晶体管和一些自己的板载计算:拥有3.6teraflopsFP8处理能力。在此之前,仅16个GPU组成的集群,就会耗费60%的时间用于相互通信,只有40%的时间能用于实际计算。一石激起千层浪,“最强AI芯片”的推出让网友纷纷赞叹。其中英伟达高级科学家JimFan直呼:Blackwell新王诞生,新的摩尔定律已经应运而生。DGXGrace-BlackwellGB200:单个机架的计算能力超过1Exaflop。黄仁勋交付给OpenAI的第一台DGX是0.17Petaflops。GPT-4的1.8T参数可在2000个Blackwell上完成90天的训练。还有网友感叹:1000倍成就达成!Blackwell标志着在短短8年内,NVIDIAAI芯片的计算能力实现了提升1000倍的历史性成就。2016年,“Pascal”芯片的计算能力仅为19teraflops,而今天Blackwell的计算能力已经达到了20000teraflops。相关文章:全程回顾黄仁勋GTC演讲:Blackwell架构B200芯片登场英伟达扩大与中国车企合作为比亚迪提供下一代车载芯片英伟达进军机器人领域发布世界首款人形机器人通用基础模型台积电、新思科技首次采用NVIDIA计算光刻平台:最快加速60倍NVIDIA共享虚拟现实环境技术将应用于苹果VisionPro黄仁勋GTC演讲全文:最强AI芯片Blackwell问世推理能力提升30倍...PC版:https://www.cnbeta.com.tw/articles/soft/1424217.htm手机版:https://m.cnbeta.com.tw/view/1424217.htm

封面图片

英伟达CEO黄仁勋:摩尔定律结束了

英伟达CEO黄仁勋:摩尔定律结束了在回应外界对刚刚发布的40系显卡价格过高的议论时,黄仁勋解释道,以类似成本实现两倍业绩预期对于该行业来说“已成为过去”。“元宇宙在今天看来难以理解,但它在未来非常重要。20年前,25年前,互联网看起来难以理解。15年以前,移动互联网也看起来难以理解。现在,下一代互联网,即元宇宙互联网,还不是很清晰,但它将来会的。计算机行业正在构建下一个世界。”...PC版:https://www.cnbeta.com/articles/soft/1319497.htm手机版:https://m.cnbeta.com/view/1319497.htm

封面图片

Azure AI 入门 (三)摩尔定律,GPU与并行计算

AzureAI入门(三)摩尔定律,GPU与并行计算摩尔定律(图一)是英特尔Intel创始人之一戈登·摩尔的经验之谈,其核心内容为:集成电路IC相同面积上可以容纳的晶体管Transistor数目在18个月到24个月便会增加一倍,因此处理器的性能大约每两年翻一倍,同时价格下降为之前的一半。虽然名为“定律”,但其只是根据20世纪中后期的发展趋势归纳而成。进入21世纪以后,以英特尔为代表的中央处理器CPU的发展趋势渐渐慢于摩尔的预测的。仅依靠单颗处理器的速度提升已无法满足日渐复杂的计算任务,比如3维图形的渲染(3Drendering)。因此,英伟达Nvidia在1999年提出了硬件图形处理器(GraphicsProcessingUnit)的概念,以大量的只能完成某些特殊任务的微处理器,代替少量的通用处理器。软件方面,并行计算也从专业科学领域逐渐向大众领域流行。用一个可能不是最恰当的比方,CPU像是由4位特级厨师组成的小组,可以完成任何烹饪任务,而GPU像是用同样工资请来的128位三明治店的员工。GPU不能做很多事,像完成一些特定的菜,但如果任务是制作2000人份的三明治,GPU一定可以依靠并行计算比CPU完成得快许多。GPU与并行计算的普及,也使得云计算成为了可能。计算机科学家在设计计算任务时通常会首先考虑能否将大任务拆分成能同时进行的更小任务,从而可以同时运行在服务商提供的大量数目的CPU和GPU上。图二英伟达创始人黄仁勋JensenHuang

封面图片

黄仁勋剧透下一代GPU芯片 新演讲又把摩尔定律按在地上摩擦

黄仁勋剧透下一代GPU芯片新演讲又把摩尔定律按在地上摩擦好好好,像做iPhone一样造芯片。到这一代Blackwell为止,英伟达已经把AI模型有效扩展到万亿参数。(还给token定了个译名:词元)。1.8万亿参数GPT4的训练能耗,8年降低至原来的1/350。推理能耗,8年降低至原来的1/45000。看着这一波亮相和剧透,网友真相了:英伟达没有竞争对手,而是选择将摩尔定律放在地上摩擦……老黄是在书写自己的定律。所以应该叫老黄定律?还是英伟达定律?ComputeX前夜,老黄一开场就展开了一波隐形卖货,他自称不太准确的“CEO数学”:买得越多,省得越多……Themoreyoubuy,themoreyousave.经典语录依然引发现场欢呼大笑:虽然不太准确,但好像有些道理……除此之外,还有一些新产品亮相,包括能够模拟气冲的天气预测模型CorriDiff、数字人微服务、BlackWell系统、Spectrum-X、机器人平台Isaac……好了话不多说,这就来看看老黄这次到底搞了哪些事情“AIFactoryIsgenerating”谈到当前新的产业革命,老黄表示:新的计算时代正在开始;而AIFactory正在诞生。他在现场展示了BlackWell系统。3月份GTC大会上还遮遮掩掩地说是GPT-MoE-1.8T模型,这下彻底摊牌了:GPT-4参数就是1.8T。跟DGXHopper相比。现场还看到了它的真身,大概有两米那么高吧…而真正的AIFactory大概会长这样,大概有32000GPU。AI加速每个应用程序AI对于企业的影响,老黄认为AI加速每一个应用程序。他首先谈到了NIM推理微服务,这是一个帮助开发者或者企业轻松构建AI应用,简化大模型部署程序。不管是聊天机器人、还是生活/驾驶助手等,部署时间都能从几周缩短到几分钟。运行MetaLlama3-8B的NIM可以产生比不使用NIM多3倍的tokens。企业和开发者可以使用NIM运行生成文本、图像、视频、语音和数字人类的应用程序。而背后源于丰富的技术合作生态——近200家技术合作伙伴,包括Cadence、Cloudera、Cohesity、DataStax、NetApp、ScaleAI和Synopsys等,正在将NIM集成到他们的平台中。此次在这个NIM中还有上新,也就是ACE生成式AI微服务,数字人AI技术套件。除了原有自动语音识别、文本到语音的转换和翻译、Nemotron语言模型、Audio2Face等套件,还增加了两个技术:一个是可以基于音轨生成身体姿势Audio2Gesture;一个Nemotron-34.5B,这是英伟达首款SLM(小爱语言模型),专为低延迟端侧设备而生。∂接下来,这一数字人微服务将部署在一亿台RTXAIPC上面。当前英伟达在新的合作伙伴,比如华硕、MSI的加入下,已经拥有超过200种RTXAIPC型号。还推出了RTXAIToolkit,一个工具和SDK集合,帮助Windows开发者定制优化本地部署模型。同Mac相比,部署了RTX的Windows的StableDiffusion推理速度是Mac的7倍。每一台带有RTX的PC,都是一台RTXAIPC。用于机器人开发的技术平台Isaac这次一同亮相的,还有用于机器人开发的技术平台,NVIDIAIsaac。为啥搞这玩意儿呢,老黄给出的理由是这样的:机器人时代已经到来。有朝一日,所有会移动的东西,都将实现自主化。这个Isaac平台具体长啥样呢?Isaac平台提供一系列英伟达加速库、AI基础模型和仿真技术,供机器人制造商集成到自己的技术栈中。注意,平台是模块化的,允许公司单独或一起采用多种技术。具体而言,其中包括:NVIDIAIsaacROS:一系列模块化的ROS2包,为ROS社区开发者带来NVIDIA加速和AI模型NVIDIAIsaacPerceptor:一个参考工作流程,提供基于AI的自主移动机器人的多摄像头3D环视能力NVIDIAIsaacManipulator:一个简化AI启用机械臂开发的参考工作流程NVIDIAIsaacSim:一款参考应用程序,用于在基于NVIDIAOmniverse平台的物理环境中模拟、测试和验证机器人,并生成合成数据NVIDIAIsaacLab:IsaacSim中的参考应用程序,针对AI机器人基础模型训练的强化、模仿和迁移学习进行了优化据介绍,目前,包括比亚迪电子、西门子、泰瑞达机器人和Intrinsic(Alphabet的子公司)在内,全球超多名列前茅的机器人开发团队,都在采用Isaac平台。这些团队用上Isaac,一边提高制造工厂、仓库和配送中心的效率,同时确保人类同事的安全;一边也能充当重复劳动和超精确任务的执行者。现场放出了很多demo,很多工厂在英伟达Omniverse里建造了一个完全模拟现实的自助工厂,以及基于Isaac平台开发的AI机器人。官网悄悄推出游戏Agent助手除了现场老黄亲自发布的上述内容外,我们在英伟达官网还找到了一个彩蛋,一个巨久远的callback。ProjectG-Assist。时间回到2017年愚人节,英伟达官网开了个大玩笑:宣称自家发布了一款支持10080款游戏的USB人工智能超算卡GeForceGTXG-Assist。重点在于它很AI。GeForceGTXG-Assist像是个AI游戏助手,可以帮助玩家自动完成游戏操作,甚至代打击败Boss。今天,英伟达真的将这个愚人节玩笑变为现实——英伟达官网上线ProjectG-Assist,一套工具和模型的集合而成的AIAgent系统,供游戏和应用程序开发者使用。通过前后剧情,ProjectG-Assist利用大模型对游戏输出响应,能够检查游戏性能和系统设置,建议用户优化以充分利用可用硬件,或者适当升级角色。玩家这边呢,还可以通过ProjectG-Assist找到最好的武器,也可以查询到最牛的攻略,然后就可以或制作武器材料,或一路杀怪通关。总而言之,ProjectG-Assist可以让人有个Agent外挂,但是不会让你完全挂机,官网还贴心表示:G-Assist项目不会像我们在2017年愚人节预言视频中那样完全替代您玩游戏,但它可以帮助您从您最喜欢的游戏中获得更多收益。游戏体验再上大分!据介绍,ProjectG-Assist支持各种模态的输入。可以是来自玩家的文本提示,或声音指令;可以是屏幕上显示框架的上下文;可以是来自应用程序或系统本身的API。△演示人员语音输入中这些数据都通过连接了游戏知识数据库的大模型处理,然后使用RAG(检索增强生成)生成和用户相关的查询结果——没错,ProjectG-Assist允许玩家使用PC或云端RTXAI驱动的知识库。ProjectG-Assist开发工具将出现在即将推出的RTXAI开发套件中,具体会用在哪些游戏上,还需要游戏开发商来决定并提供支持。为了让大家更好地使用ProjectG-Assist,英伟达贴心地附上视频教学大礼包,需要可自取。OneMoreThing整场发布会,老黄还整了不少活儿。比如AI老黄似乎已经成了发布会常客。在介绍天气预测模型时,他坦白承认在视频中那么流利讲普通话的那位是AI生成的,因为自己中文不太好。而本场重磅的BlackWell系统、AIFactory的核心构成,也被他各种搬来搬去……除了下一代GPU取名Rubin,我们还看到VeraCPU,他们共同出现在新的VeraRubin加速器上。而这一名称来源,实际上是来自美国一位女天文学家VeraRubin,她是研究暗物质先驱。以及,COMPUTEX2024不愧是6月开头就炸场的AI终端大戏。除了黄院士外,英特尔、AMD、高通等老板都悉数到场,接下来几天会挨个发表演讲。这些主题演讲,绝大部分都跟AIPC有关。大家一起蹲一蹲吧~...PC版:https://www.cnbeta.com.tw/articles/soft/1433340.htm手机版:https://m.cnbeta.com.tw/view/1433340.htm

封面图片

那个提出「摩尔定律」的人,走了#抽屉IT

封面图片

【摩尔线程CEO张建中:如何打破摩尔定律,18个月内推出首款GPU芯片?】摩尔线程芯片设计的关键部分来自苹果公司供应商、总部位于

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人