英伟达发文介绍“黄氏定律”:GPU 推理性能十年提升 1000 倍,无惧摩尔定律影响 - IT之家

None

相关推荐

封面图片

Azure AI 入门 (三)摩尔定律,GPU与并行计算

Azure AI 入门 (三)摩尔定律,GPU与并行计算 摩尔定律(图一)是英特尔Intel创始人之一戈登·摩尔的经验之谈,其核心内容为:集成电路IC相同面积上可以容纳的晶体管Transistor数目在18个月到24个月便会增加一倍,因此处理器的性能大约每两年翻一倍,同时价格下降为之前的一半。 虽然名为“定律”,但其只是根据20世纪中后期的发展趋势归纳而成。进入21世纪以后,以英特尔为代表的中央处理器CPU的发展趋势渐渐慢于摩尔的预测的。仅依靠单颗处理器的速度提升已无法满足日渐复杂的计算任务,比如3维图形的渲染(3D rendering)。 因此,英伟达Nvidia在1999年提出了硬件图形处理器(Graphics Processing Unit)的概念,以大量的只能完成某些特殊任务的微处理器,代替少量的通用处理器。软件方面,并行计算也从专业科学领域逐渐向大众领域流行。用一个可能不是最恰当的比方,CPU像是由4位特级厨师组成的小组,可以完成任何烹饪任务,而GPU像是用同样工资请来的128位三明治店的员工。GPU不能做很多事,像完成一些特定的菜,但如果任务是制作2000人份的三明治,GPU一定可以依靠并行计算比CPU完成得快许多。 GPU与并行计算的普及,也使得云计算成为了可能。计算机科学家在设计计算任务时通常会首先考虑能否将大任务拆分成能同时进行的更小任务,从而可以同时运行在服务商提供的大量数目的CPU和GPU上。 图二 英伟达创始人黄仁勋 Jensen Huang

封面图片

ARM 技术总监:摩尔定律放缓,未来将聚焦每瓦性能提升========暗示以后将专注于挤牙膏¿

封面图片

那个提出「摩尔定律」的人,走了 #抽屉IT

封面图片

NVIDIA“最强AI芯片”Blackwell B200 GPU令业内惊呼新的摩尔定律诞生

NVIDIA“最强AI芯片”Blackwell B200 GPU令业内惊呼新的摩尔定律诞生 在GTC直播中,黄仁勋左手举着 B200 GPU,右手举着 H100此外,将两个B200 GPU与单个Grace CPU 结合在一起的 GB200,可以为LLM推理工作负载提供30倍的性能,并且显著提高效率。黄仁勋还强调称:“与H100相比,GB200的成本和能耗降低了25倍!关于市场近期颇为关注的能源消耗问题,B200 GPU也交出了最新的答卷。黄仁勋表示,此前训练一个1.8 万亿参数模型,需要8000 个 Hopper GPU 并消耗15 MW电力。但如今,2000 个 Blackwell GPU就可以实现这一目标,耗电量仅为4MW。在拥有1750亿参数的GPT-3大模型基准测试中,GB200的性能是H100的7倍,训练速度是H100的4倍。值得一提的是,B200 GPU的重要进步之一,是采用了第二代Transformer引擎。它通过对每个神经元使用4位(20 petaflops FP4)而不是8位,直接将计算能力、带宽和模型参数规模翻了一倍。而只有当这些大量的GPU连接在一起时,第二个重要区别才会显现,那就是新一代NVLink交换机可以让576个GPU相互通信,双向带宽高达1.8TB/秒。而这就需要英伟达构建一个全新的网络交换芯片,其中包括500亿个晶体管和一些自己的板载计算:拥有3.6 teraflops FP8处理能力。在此之前,仅16个GPU组成的集群,就会耗费60%的时间用于相互通信,只有40%的时间能用于实际计算。一石激起千层浪,“最强AI芯片”的推出让网友纷纷赞叹。其中英伟达高级科学家Jim Fan直呼:Blackwell新王诞生,新的摩尔定律已经应运而生。DGX Grace-Blackwell GB200:单个机架的计算能力超过1 Exaflop。黄仁勋交付给OpenAI的第一台DGX是0.17 Petaflops。GPT-4的1.8T参数可在2000个Blackwell上完成90天的训练。还有网友感叹:1000倍成就达成!Blackwell标志着在短短8年内,NVIDIA AI 芯片的计算能力实现了提升1000倍的历史性成就。2016 年,“Pascal”芯片的计算能力仅为19 teraflops,而今天Blackwell的计算能力已经达到了 20000 teraflops。相关文章:全程回顾黄仁勋GTC演讲:Blackwell架构B200芯片登场英伟达扩大与中国车企合作 为比亚迪提供下一代车载芯片英伟达进军机器人领域 发布世界首款人形机器人通用基础模型台积电、新思科技首次采用NVIDIA计算光刻平台:最快加速60倍NVIDIA共享虚拟现实环境技术将应用于苹果Vision Pro黄仁勋GTC演讲全文:最强AI芯片Blackwell问世 推理能力提升30倍 ... PC版: 手机版:

封面图片

清华大学研究超高速光电模拟芯片:“挣脱”摩尔定律,算力提升 3000 倍

清华大学研究超高速光电模拟芯片:“挣脱”摩尔定律,算力提升 3000 倍 清华大学自动化系戴琼海院士、吴嘉敏助理教授与电子工程系方璐副教授、乔飞副研究员联合攻关,提出了一种“挣脱”摩尔定律的全新计算架构:光电模拟芯片,算力达到目前高性能商用芯片的3000余倍。相关成果以“高速视觉任务中的纯模拟光电芯片”(All-analog photo-electronic chip for high-speed vision tasks)为题,以(article)形式发表在《自然》(Nature)期刊上。如果用交通工具的运行时间来类比芯片中信息流计算的时间,那么这枚芯片的出现,相当于将京广高铁8小时的运行时间缩短到8秒钟。 在这枚小小的芯片中,清华大学攻关团队创造性地提出了光电深度融合的计算框架。从最本质的物理原理出发,结合了基于电磁波空间传播的光计算,与基于基尔霍夫定律的纯模拟电子计算,“挣脱”传统芯片架构中数据转换速度、精度与功耗相互制约的物理瓶颈,在一枚芯片上突破大规模计算单元集成、高效非线性、高速光电接口三个国际难题。 实测表现下,光电融合芯片的系统级算力较现有的高性能芯片架构提升了数千倍。然而,如此惊人的算力,还只是这枚芯片诸多优势的其中之一。 在研发团队演示的智能视觉任务和交通场景计算中,光电融合芯片的系统级能效(单位能量可进行的运算数)实测达到了74.8 Peta-OPS/W,是现有高性能芯片的400万余倍。形象地说,原本供现有芯片工作一小时的电量,可供它工作500多年。

封面图片

推理速度提升十倍!英伟达发布ChatGPT核弹级GPU

推理速度提升十倍!英伟达发布ChatGPT核弹级GPU 当地时间周二,英伟达举办2023年春季GTC大会,黄仁勋穿着标志性皮夹克,向开发者披露最新的硬件和AI应用软件进展。在过去十年里,AI产业经历了历史性的飞跃。从2012年卷积神经网络AlexNet点燃了深度学习领域的“星星之火”,到ChatGPT一鸣惊人。黄仁勋表示,眼下整个AI产业正处于“iPhone时刻”创业公司正在竞相建立颠覆式的商业模型,而业界巨头也在寻找应对之道。GTC大会上,英伟达推出开源量子计算机软件Cuda Quantum,用于构建量子算法;与AT&T(T.N)合作,帮助提高调度服务的效率。 当地时间3月21日,GTC大会,英伟达发布了专为ChatGPT设计的“核弹”GPU(图像芯片)H100 NVL,较之适用于GPT-3的A100,速度提升10倍。#视频 () 来自:雷锋 频道:@kejiqu 群组:@kejiquchat 投稿:@kejiqubot

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人