Azure AI 入门 (三)摩尔定律,GPU与并行计算

Azure AI 入门 (三)摩尔定律,GPU与并行计算 摩尔定律(图一)是英特尔Intel创始人之一戈登·摩尔的经验之谈,其核心内容为:集成电路IC相同面积上可以容纳的晶体管Transistor数目在18个月到24个月便会增加一倍,因此处理器的性能大约每两年翻一倍,同时价格下降为之前的一半。 虽然名为“定律”,但其只是根据20世纪中后期的发展趋势归纳而成。进入21世纪以后,以英特尔为代表的中央处理器CPU的发展趋势渐渐慢于摩尔的预测的。仅依靠单颗处理器的速度提升已无法满足日渐复杂的计算任务,比如3维图形的渲染(3D rendering)。 因此,英伟达Nvidia在1999年提出了硬件图形处理器(Graphics Processing Unit)的概念,以大量的只能完成某些特殊任务的微处理器,代替少量的通用处理器。软件方面,并行计算也从专业科学领域逐渐向大众领域流行。用一个可能不是最恰当的比方,CPU像是由4位特级厨师组成的小组,可以完成任何烹饪任务,而GPU像是用同样工资请来的128位三明治店的员工。GPU不能做很多事,像完成一些特定的菜,但如果任务是制作2000人份的三明治,GPU一定可以依靠并行计算比CPU完成得快许多。 GPU与并行计算的普及,也使得云计算成为了可能。计算机科学家在设计计算任务时通常会首先考虑能否将大任务拆分成能同时进行的更小任务,从而可以同时运行在服务商提供的大量数目的CPU和GPU上。 图二 英伟达创始人黄仁勋 Jensen Huang

相关推荐

封面图片

:从入门到精通,利用NVIDIA GPU进行数学和机器学习的加速计算,适用于希望扩展算法至GPU的研究人员和应用专家

:从入门到精通,利用NVIDIA GPU进行数学和机器学习的加速计算,适用于希望扩展算法至GPU的研究人员和应用专家 CUDA(统一计算设备架构)是 NVIDIA 开发的并行计算平台和编程模型。它允许软件开发人员利用 NVIDIA GPU(图形处理单元)巨大的并行处理能力来执行通用计算任务,而不仅仅是其传统的图形渲染角色。 GPU 设计有数千个更小、更高效的核心,经过优化可同时处理多个任务。这使得它们非常适合可分解为许多独立操作的任务,例如科学模拟、机器学习、视频处理等。与传统的仅使用 CPU 的代码相比,CUDA 可显著提高合适应用程序的速度。 GPU 可以并行处理大量数据,从而加速在 CPU 上需要更长时间的计算。对于某些类型的工作负载,GPU 比 CPU 更节能,可提供更高的每瓦性能。

封面图片

NASA 超级计算机已落后:拖累任务进度,亟需升级换代

NASA 超级计算机已落后:拖累任务进度,亟需升级换代 报告指出,NASA 的超级计算机仍然主要依赖于 CPU 中央处理器,例如其旗舰超级计算机之一,竟拥有 18000 个 CPU,但仅有 48 个 GPU 图形处理器。要知道,GPU 在并行处理任务(科学模拟和建模中非常常见)方面能提供远超 CPU 的计算能力。

封面图片

NVIDIA“最强AI芯片”Blackwell B200 GPU令业内惊呼新的摩尔定律诞生

NVIDIA“最强AI芯片”Blackwell B200 GPU令业内惊呼新的摩尔定律诞生 在GTC直播中,黄仁勋左手举着 B200 GPU,右手举着 H100此外,将两个B200 GPU与单个Grace CPU 结合在一起的 GB200,可以为LLM推理工作负载提供30倍的性能,并且显著提高效率。黄仁勋还强调称:“与H100相比,GB200的成本和能耗降低了25倍!关于市场近期颇为关注的能源消耗问题,B200 GPU也交出了最新的答卷。黄仁勋表示,此前训练一个1.8 万亿参数模型,需要8000 个 Hopper GPU 并消耗15 MW电力。但如今,2000 个 Blackwell GPU就可以实现这一目标,耗电量仅为4MW。在拥有1750亿参数的GPT-3大模型基准测试中,GB200的性能是H100的7倍,训练速度是H100的4倍。值得一提的是,B200 GPU的重要进步之一,是采用了第二代Transformer引擎。它通过对每个神经元使用4位(20 petaflops FP4)而不是8位,直接将计算能力、带宽和模型参数规模翻了一倍。而只有当这些大量的GPU连接在一起时,第二个重要区别才会显现,那就是新一代NVLink交换机可以让576个GPU相互通信,双向带宽高达1.8TB/秒。而这就需要英伟达构建一个全新的网络交换芯片,其中包括500亿个晶体管和一些自己的板载计算:拥有3.6 teraflops FP8处理能力。在此之前,仅16个GPU组成的集群,就会耗费60%的时间用于相互通信,只有40%的时间能用于实际计算。一石激起千层浪,“最强AI芯片”的推出让网友纷纷赞叹。其中英伟达高级科学家Jim Fan直呼:Blackwell新王诞生,新的摩尔定律已经应运而生。DGX Grace-Blackwell GB200:单个机架的计算能力超过1 Exaflop。黄仁勋交付给OpenAI的第一台DGX是0.17 Petaflops。GPT-4的1.8T参数可在2000个Blackwell上完成90天的训练。还有网友感叹:1000倍成就达成!Blackwell标志着在短短8年内,NVIDIA AI 芯片的计算能力实现了提升1000倍的历史性成就。2016 年,“Pascal”芯片的计算能力仅为19 teraflops,而今天Blackwell的计算能力已经达到了 20000 teraflops。相关文章:全程回顾黄仁勋GTC演讲:Blackwell架构B200芯片登场英伟达扩大与中国车企合作 为比亚迪提供下一代车载芯片英伟达进军机器人领域 发布世界首款人形机器人通用基础模型台积电、新思科技首次采用NVIDIA计算光刻平台:最快加速60倍NVIDIA共享虚拟现实环境技术将应用于苹果Vision Pro黄仁勋GTC演讲全文:最强AI芯片Blackwell问世 推理能力提升30倍 ... PC版: 手机版:

封面图片

英特尔实现3D先进封装大规模量产 继续推进摩尔定律

英特尔实现3D先进封装大规模量产 继续推进摩尔定律 英特尔表示,在其最新完成升级的美国新墨西哥州Fab 9工厂,实现基于业界领先的半导体封装解决方案的大规模生产,其中包括英特尔突破性的3D封装技术Foveros。据了解,英特尔Foveros是3D先进封装技术,在处理器的制造过程中,能够以垂直而非水平方式堆叠计算模块。英特尔的Foveros和EMIB等封装技术,可以实现在单个封装中集成一万亿个晶体管,并在2030年后继续推进摩尔定律。摩尔定律是Intel创始人之一戈登·摩尔的经验之谈,其核心内容为:集成电路上可以容纳的晶体管数量,每经过18-24个月便会翻一番,而处理器的性能大约每2年翻一倍,同时价格降低一半。英特尔CEO帕特·基辛格此前也曾表示,“对于那些宣告我们(摩尔定律)已经死亡的批评者来说,在元素周期表用完之前,我们绝不会停下!” ... PC版: 手机版:

封面图片

【炼数成金】GPU并行计算与CUDA编程(第三期)

【炼数成金】GPU并行计算与CUDA编程(第三期) 描述:本课程主要分为四部分,分别涵盖了硬件搭载知识、CUDA编程基础、CUDA性能优化与设计、实战项目经验。 链接: 大小:未统计 标签:#课程 #知识 来自:雷锋 频道:@Aliyundrive_Share_Channel 群组:@alyd_g 投稿:@AliYunPanBot

封面图片

【炼数成金】GPU并行计算与CUDA编程(第三期)

【炼数成金】GPU并行计算与CUDA编程(第三期) 描述:本课程主要分为四部分,分别涵盖了硬件搭载知识、CUDA编程基础、CUDA性能优化与设计、实战项目经验。 链接:https://www.aliyundrive.com/s/sxWCS76QeHh 大小:未统计 标签:#课程 #知识 来自:雷锋 版权:版权反馈/DMCA 频道:@shareAliyun 群组:@aliyundriveShare 投稿:@aliyun_share_bot

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人