Azure AI 入门（三）摩尔定律，GPU与并行计算

AzureAI入门（三）摩尔定律，GPU与并行计算摩尔定律(图一）是英特尔Intel创始人之一戈登·摩尔的经验之谈，其核心内容为：集成电路IC相同面积上可以容纳的晶体管Transistor数目在18个月到24个月便会增加一倍，因此处理器的性能大约每两年翻一倍，同时价格下降为之前的一半。虽然名为“定律”，但其只是根据20世纪中后期的发展趋势归纳而成。进入21世纪以后，以英特尔为代表的中央处理器CPU的发展趋势渐渐慢于摩尔的预测的。仅依靠单颗处理器的速度提升已无法满足日渐复杂的计算任务，比如3维图形的渲染（3Drendering)。因此，英伟达Nvidia在1999年提出了硬件图形处理器（GraphicsProcessingUnit)的概念，以大量的只能完成某些特殊任务的微处理器，代替少量的通用处理器。软件方面，并行计算也从专业科学领域逐渐向大众领域流行。用一个可能不是最恰当的比方，CPU像是由4位特级厨师组成的小组，可以完成任何烹饪任务，而GPU像是用同样工资请来的128位三明治店的员工。GPU不能做很多事，像完成一些特定的菜，但如果任务是制作2000人份的三明治，GPU一定可以依靠并行计算比CPU完成得快许多。GPU与并行计算的普及，也使得云计算成为了可能。计算机科学家在设计计算任务时通常会首先考虑能否将大任务拆分成能同时进行的更小任务，从而可以同时运行在服务商提供的大量数目的CPU和GPU上。图二英伟达创始人黄仁勋JensenHuang

在Telegram中查看

相关推荐

【炼数成金】GPU并行计算与CUDA编程（第三期）

名称：【炼数成金】GPU并行计算与CUDA编程（第三期）描述：本课程主要分为四部分，分别涵盖了硬件搭载知识、CUDA编程基础、CUDA性能优化与设计、实战项目经验。链接：https://pan.quark.cn/s/d6e2c7df6c4c大小：未统计标签：#课程#知识#炼数成金#quark来自：雷锋频道：@yunpanshare群组：@yunpangroup投稿：@kejiqubot

CUDA加速数学和机器学习：从入门到精通，利用NVIDIA GPU进行数学和机器学习的加速计算，适用于希望扩展算法至GPU的研究

：从入门到精通，利用NVIDIAGPU进行数学和机器学习的加速计算，适用于希望扩展算法至GPU的研究人员和应用专家CUDA（统一计算设备架构）是NVIDIA开发的并行计算平台和编程模型。它允许软件开发人员利用NVIDIAGPU（图形处理单元）巨大的并行处理能力来执行通用计算任务，而不仅仅是其传统的图形渲染角色。GPU设计有数千个更小、更高效的核心，经过优化可同时处理多个任务。这使得它们非常适合可分解为许多独立操作的任务，例如科学模拟、机器学习、视频处理等。与传统的仅使用CPU的代码相比，CUDA可显著提高合适应用程序的速度。GPU可以并行处理大量数据，从而加速在CPU上需要更长时间的计算。对于某些类型的工作负载，GPU比CPU更节能，可提供更高的每瓦性能。

英特尔 CEO：别听老黄瞎忽悠摩尔定律依然有效

英特尔CEO：别听老黄瞎忽悠摩尔定律依然有效英特尔CEO帕特・基辛格（PatGelsinger）今日表示，在AI时代，英特尔处理器不但不会失去动力，反而会继续发挥重要作用。摩尔定律也依然有效。基辛格直接抨击了英伟达CEO黄仁勋的说法，即在AI时代，像英特尔这样的传统处理器正在失去动力。他说：“我认为，它就像25年前的互联网，规模和潜力庞大。我们相信，这是推动半导体行业在2030年之前达到1万亿美元的动力。”（新浪科技）

NVIDIA“最强AI芯片”Blackwell B200 GPU令业内惊呼新的摩尔定律诞生

NVIDIA“最强AI芯片”BlackwellB200GPU令业内惊呼新的摩尔定律诞生在GTC直播中，黄仁勋左手举着B200GPU，右手举着H100此外，将两个B200GPU与单个GraceCPU结合在一起的GB200，可以为LLM推理工作负载提供30倍的性能，并且显著提高效率。黄仁勋还强调称：“与H100相比，GB200的成本和能耗降低了25倍！关于市场近期颇为关注的能源消耗问题，B200GPU也交出了最新的答卷。黄仁勋表示，此前训练一个1.8万亿参数模型，需要8000个HopperGPU并消耗15MW电力。但如今，2000个BlackwellGPU就可以实现这一目标，耗电量仅为4MW。在拥有1750亿参数的GPT-3大模型基准测试中，GB200的性能是H100的7倍，训练速度是H100的4倍。值得一提的是，B200GPU的重要进步之一，是采用了第二代Transformer引擎。它通过对每个神经元使用4位（20petaflopsFP4）而不是8位，直接将计算能力、带宽和模型参数规模翻了一倍。而只有当这些大量的GPU连接在一起时，第二个重要区别才会显现，那就是新一代NVLink交换机可以让576个GPU相互通信，双向带宽高达1.8TB/秒。而这就需要英伟达构建一个全新的网络交换芯片，其中包括500亿个晶体管和一些自己的板载计算：拥有3.6teraflopsFP8处理能力。在此之前，仅16个GPU组成的集群，就会耗费60%的时间用于相互通信，只有40%的时间能用于实际计算。一石激起千层浪，“最强AI芯片”的推出让网友纷纷赞叹。其中英伟达高级科学家JimFan直呼：Blackwell新王诞生，新的摩尔定律已经应运而生。DGXGrace-BlackwellGB200：单个机架的计算能力超过1Exaflop。黄仁勋交付给OpenAI的第一台DGX是0.17Petaflops。GPT-4的1.8T参数可在2000个Blackwell上完成90天的训练。还有网友感叹：1000倍成就达成！Blackwell标志着在短短8年内，NVIDIAAI芯片的计算能力实现了提升1000倍的历史性成就。2016年，“Pascal”芯片的计算能力仅为19teraflops，而今天Blackwell的计算能力已经达到了20000teraflops。相关文章:全程回顾黄仁勋GTC演讲：Blackwell架构B200芯片登场英伟达扩大与中国车企合作为比亚迪提供下一代车载芯片英伟达进军机器人领域发布世界首款人形机器人通用基础模型台积电、新思科技首次采用NVIDIA计算光刻平台：最快加速60倍NVIDIA共享虚拟现实环境技术将应用于苹果VisionPro黄仁勋GTC演讲全文：最强AI芯片Blackwell问世推理能力提升30倍...PC版：https://www.cnbeta.com.tw/articles/soft/1424217.htm手机版：https://m.cnbeta.com.tw/view/1424217.htm

AMD称摩尔定律并没有消亡但它已经被改变了

AMD称摩尔定律并没有消亡但它已经被改变了虽然NVIDIA显卡通常是好产品--GTX1630是一个典范的例子--但购买者有理由对产品价格的不断增长感到好奇。例如，2013年，NVIDIA推出的GTX780零售价为649美元。与此同时，上个月，RTX4080的起价达到了惊人的1199美元。这意味着价格上涨了近85%，虽然性能提升肯定不止于此，但在过去九年里，美元的价值并没有以同样的方式增长。在RTX4090和两款RTX4080的公布之后，黄仁勋在与媒体记者的问答中再次声称"摩尔定律已经死亡"。AMD最近的显卡市场发力明显，试图一举击败NVIDIA。首席技术官MarkPapermaster在最近的一次峰会上发言驳斥了黄仁勋的说法，强调摩尔定律仍然存在。"并不是说不会有令人兴奋的新晶体管技术......对我来说，非常非常清楚的是，我们要不断改进晶体管技术的进展，但它们更昂贵，所以你将不得不使用加速器，GPU加速，专门的功能......"他补充解释AMD如何管理制造成本，芯片确实在变得更加复杂和昂贵，只是每个芯片公司都正在学习和适应这种现状。根据Papermaster的说法，AMD已经预料到了价格上涨，并将其描述为该公司最近在其处理器和显卡中改变芯片设计结构的一个主导因素。这两家公司都从台积电获得处理器晶圆，来自AMD和NVIDIA的相互矛盾的叙述令人费解，AMD似乎正在推动规避所谓的摩尔定律的"死亡"，而NVIDIA似乎已经决定完全接受"摩尔定律已死"的理念。...PC版：https://www.cnbeta.com.tw/articles/soft/1334267.htm手机版：https://m.cnbeta.com.tw/view/1334267.htm

英特尔CEO：别听老黄瞎忽悠摩尔定律依然有效

英特尔CEO：别听老黄瞎忽悠摩尔定律依然有效他说：“与黄仁勋让你们相信的不同，摩尔定律依然活着，而且还活得很好。”基辛格同时强调，作为PC芯片的领先供应商，英特尔将在AI的普及中发挥重要作用。他说：“我认为，它就像25年前的互联网，规模和潜力庞大。我们相信，这是推动半导体行业在2030年之前达到1万亿美元的动力。”在本届台北国际电脑展上，英特尔展示了其最新的至强6（Xeon6）数据中心处理器。该处理器具有更高效的内核，将使运营商能够将给定任务所需的空间减少到前一代硬件的1/3。盖辛格还称，英特尔的Gaud系统将由戴尔和英业达（Inventec）等合作伙伴提供。Gaud系统将英特尔的芯片编译成多处理器套件，专门用于处理生成式AI的训练。一套配备八个英特尔Gaud2加速器的套装售价为65，000美元，而由八个英特尔Gaud3加速器组成的功能更强大的套件将标价12.5万美元。英特尔预计，这两款产品都比竞争对手的产品更实惠。这些Gaudi3集群中的每一个都由8192个加速器组成，英特尔预计，与同等规模的英伟达H100GPU集群相比，英特尔产品的AI模型训练时间最多快40%。另外，在执行AI推理任务方面，Gaudi3的执行速度将比英伟达的H100快一倍，这是从Meta和Mistral等流行模型的测试结果中得出的结论。但是，这些优势可能还不足以推翻英伟达在数据中心AI处理方面的领先地位。NextCurve的分析师LeonardLee称：“每个加速器的表现不再是最重要的事情。英伟达的最大优势在于拥有一个凝聚和集成的生态系统，以及像NVLink这样的专有技术，确保其计算集群作为一个整体工作。”几十年来，英特尔一直领导着计算机行业。但由于逐渐落后于竞争对手，其营收在过去两年里有所下滑。三年前，基辛格被任命为英特尔CEO，肩负着重新夺回芯片设计和制造领导地位的使命。虽然英特尔的销售额已经停止萎缩，但分析师预计还不会迅速反弹。据预计，英特尔今年的营收将比2021年减少200亿美元。与此同时，英伟达的销售额预计将翻一番，AMD的增长率也将超过10%，这两家公司均更好地利用了AI计算硬件的开支狂潮。基辛格称：“这是我们职业生涯中最重要的时刻。”他重申了英特尔与合作伙伴合作的重要性，并称“我们是为这一刻而生的。”...PC版：https://www.cnbeta.com.tw/articles/soft/1433550.htm手机版：https://m.cnbeta.com.tw/view/1433550.htm

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人