：从入门到精通，利用NVIDIA GPU进行数学和机器学习的加速计算，适用于希望扩展算法至GPU的研究人员和应用专家

：从入门到精通，利用NVIDIA GPU进行数学和机器学习的加速计算，适用于希望扩展算法至GPU的研究人员和应用专家 CUDA（统一计算设备架构）是 NVIDIA 开发的并行计算平台和编程模型。它允许软件开发人员利用 NVIDIA GPU（图形处理单元）巨大的并行处理能力来执行通用计算任务，而不仅仅是其传统的图形渲染角色。 GPU 设计有数千个更小、更高效的核心，经过优化可同时处理多个任务。这使得它们非常适合可分解为许多独立操作的任务，例如科学模拟、机器学习、视频处理等。与传统的仅使用 CPU 的代码相比，CUDA 可显著提高合适应用程序的速度。 GPU 可以并行处理大量数据，从而加速在 CPU 上需要更长时间的计算。对于某些类型的工作负载，GPU 比 CPU 更节能，可提供更高的每瓦性能。

在Telegram中查看

相关推荐

Azure AI 入门（三）摩尔定律，GPU与并行计算

Azure AI 入门（三）摩尔定律，GPU与并行计算摩尔定律(图一）是英特尔Intel创始人之一戈登·摩尔的经验之谈，其核心内容为：集成电路IC相同面积上可以容纳的晶体管Transistor数目在18个月到24个月便会增加一倍，因此处理器的性能大约每两年翻一倍，同时价格下降为之前的一半。虽然名为“定律”，但其只是根据20世纪中后期的发展趋势归纳而成。进入21世纪以后，以英特尔为代表的中央处理器CPU的发展趋势渐渐慢于摩尔的预测的。仅依靠单颗处理器的速度提升已无法满足日渐复杂的计算任务，比如3维图形的渲染（3D rendering)。因此，英伟达Nvidia在1999年提出了硬件图形处理器（Graphics Processing Unit)的概念，以大量的只能完成某些特殊任务的微处理器，代替少量的通用处理器。软件方面，并行计算也从专业科学领域逐渐向大众领域流行。用一个可能不是最恰当的比方，CPU像是由4位特级厨师组成的小组，可以完成任何烹饪任务，而GPU像是用同样工资请来的128位三明治店的员工。GPU不能做很多事，像完成一些特定的菜，但如果任务是制作2000人份的三明治，GPU一定可以依靠并行计算比CPU完成得快许多。 GPU与并行计算的普及，也使得云计算成为了可能。计算机科学家在设计计算任务时通常会首先考虑能否将大任务拆分成能同时进行的更小任务，从而可以同时运行在服务商提供的大量数目的CPU和GPU上。图二英伟达创始人黄仁勋 Jensen Huang

NASA 超级计算机已落后：拖累任务进度，亟需升级换代

NASA 超级计算机已落后：拖累任务进度，亟需升级换代报告指出，NASA 的超级计算机仍然主要依赖于 CPU 中央处理器，例如其旗舰超级计算机之一，竟拥有 18000 个 CPU，但仅有 48 个 GPU 图形处理器。要知道，GPU 在并行处理任务（科学模拟和建模中非常常见）方面能提供远超 CPU 的计算能力。

NVIDIA开源HPCG AI基准支持Grace CPU以及Ampere和Hopper GPU

NVIDIA开源HPCG AI基准支持Grace CPU以及Ampere和Hopper GPU 自英伟达之前宣布为 GeForce RTX 20 系列及以后的产品使用开源 GPU 内核以来，英伟达一直在寻求向更开源的方向转变，以促进其平台的开发，并在 Linux 方面大步迈进。这一次，该公司决定通过开源英伟达 HPCG 来帮助人工智能行业，该 HPCG 面向 Grace Superchips 和 Hopper 系列架构等人工智能硬件。NVIDIA的HPCG是一个专为高性能计算应用设计的基准测试，主要通过多种数学运算来测试特定硬件在不同场景下的性能。这不仅能让NVIDIA展示其GPU的能力，而且该软件包在优化HPC系统方面发挥了重要作用。在人工智能和高性能计算应用大幅增长的时代，NVIDIAHPCG 的开源意味着该公司决心看到资源的发展。以下是该公司自己详细介绍的主要功能：GitHub： HPCG 基准利用 NVIDIA 高性能数学库：cuSPARSE 和 NVPL Sparse，在 NVIDIA GPU 和 Grace CPU 上实现稀疏矩阵向量乘法 (SpMV) 和稀疏矩阵三角求解器 (SpSV) 的最高性能。NVIDIA HPCG 基准支持高度可配置的命令行参数，以决定：GPU 和 Grace CPU 的问题大小三维等级网格形状执行模式：纯 CPU、纯 GPU 和异构点对点通信： MPI_Host（发送/回传）、MPI_Host_Alltoallv、MPI_CUDA_Aware、MPI_CUDA_Aware_Alltoallv 和 NCCLNUMA 相关配置在兼容性方面，NVIDIA HPCG 支持 Grace CPU 系统以及 Ampere 和 Hopper GPU 架构。该软件也只能在 Linux 下运行，这限制了它的使用范围。不过，这仍然是一个有趣举动，它表明了NVIDIA公司对资产开源的承诺。 ... PC版：手机版：

台积电、新思科技首次采用NVIDIA计算光刻平台：最快加速60倍

台积电、新思科技首次采用NVIDIA计算光刻平台：最快加速60倍众所周知，台积电是全球领先的晶圆代工厂，而新思科技则是芯片到系统设计解决方案的领导者。二者已经将 NVIDIA cuLitho加速计算光刻光平台，集成到其软件、制造工艺和系统中，在加速芯片制造速度的同时，也加快了对未来最新一代NVIDIA Blackwell架构GPU的支持。在现代芯片制造过程中，计算光刻是至关重要的一步，是半导体制造中最苛刻的工作负载，需要大规模的数据中心，而随着时间的推移，硅小型化演进过程呈指数级放大了计算的需求。如果使用CPU来计算，每年需要在计算光刻上消耗数百亿个小时。比如一个典型的芯片掩模，就需要3000万小时或更长时间的CPU计算时间。借助加速计算，350个NVIDIA H100 GPU现在可以取代40,000 CPU 系统，从而缩短生产时间，同时降低成本、空间和功耗。据悉，NVIDIA的计算光刻平台可以将半导体制造最密集的计算工作负载加速40-60倍。NVIDIA还推出了新的生成式AI算法，该算法将进一步增强cuLitho的效率，与当前基 CPU计算的方法相比，极大地改进了半导体制造工艺。“计算光刻是芯片制造的基石，”NVIDIA创始人兼CEO黄仁勋说。“我们与台积电和新思科技合作在cuLitho上工作，应用加速计算和生成式人工智能，为半导体扩展开辟了新的领域。” ... PC版：手机版：

黄仁勋：CPU性能扩展速度下降处理密集型应用应得到加速

黄仁勋：CPU性能扩展速度下降处理密集型应用应得到加速在黄仁勋看来，如果我们需要处理的数据继续呈指数级增长，但处理的性能却没有提升，我们将经历计算膨胀和计算成本的提升。他指出，有一种更好的方法增强计算机的处理性能，那便是通过计算机增强CPU提供加速工作，通过专用处理器做得更好。“现在，随着CPU扩展速度放缓，最终基本停止，我们应该加快让每一个处理密集型应用程序都得到加速，每个数据中心也肯定会得到加速，加速计算是非常明智的，这是很普通的常识。”黄仁勋表示。他指出，计算机图形学是一门完全可以并行操作的学科。计算机图形学、图像处理、物理模拟、组合优化、图形处理、数据库处理，以及深度学习中非常著名的线性代数，许多类型的算法都非常适合通过并行处理来加速。因此，英伟达通过为CPU添加专用的辅助处理器，来实现了对于密集型应用程序的加速。“由于这两个处理器可以并行工作，它们都是自治的，具有更多独立的值，我们可以将100个单位的时间加速到1个单位的时间，速度快得令人难以置信。”黄仁勋表示。 ... PC版：手机版：

为什么有了CPU，还要研究GPU？

为什么有了CPU，还要研究GPU？ llk的回答一句话结论就是之前是软件时代，现在是AI时代。真是时代的浪潮一波接一波，三国演义里的片头词很合适：滚滚长江东逝水，浪花淘尽英雄。是非成败转头空。青山依旧在，几度夕阳红。白发渔樵江渚上，惯看秋月春风。一壶浊酒喜相逢。古今多少事，都付笑谈中曾几何时，在CPU市场，Intel通过wintel联盟统治了消费端，反过来通过消费端的利润和技术迭代从IBM/SUN等手里抢过了数据中心业务。那是一段关于CPU在指令集架构，和实现微架构上荡气回肠的历史，Intel最终成为了CPU市场的赢家，而广大消费者也用上了性价比越来越高的计算机。那个时候NVIDIA还是一家GPU公司，营收不到Intel的零头，产品GPU更是作为CPU的一个加速设备而存在。但是伴随CPU性能提升的逐渐放缓，Intel或者说CPU上的光环不在。人们转向并行计算，而NVIDIA则在这一转变中成功抓住机会，在2006年推出了Tesla架构，成功从GPU变成GPGPU NVIDIA称这一架构叫做scalable processor array，真是贴切，既可以在SM里扩展SP，又可以在芯片层面扩展SM。所以伴随摩尔定律，NVIDIA的GPGPU越来越大，性能也越来越强。一直到2012年，AI的浪潮爆发了，NVIDIA多年前的技术上的决策得到了回报，GPGPU大行其道，甚至成为AI计算的标准。而大语言模型的爆发更是催生了对高性能计算的迫切需求，NVIDIA股价更是一飞冲天。而随着GPGPU成为计算的主力，之前计算的主力CPU的市场就被大大削弱了。看看NVIDIA的DGX-1系统 8个GPU才搭配两个CPU，GPU成功从曾经的从设备变成了主角，而CPU则从王座跌落，成了主角背后的辅助。雷军说过，风口上的猪都能飞起来，更何况NVIDIA本来就是图形和并行计算领域的领导者。时来天地皆同力，运去英雄不自由这是对GPU和CPU最好的注释了。 via 知乎热榜 (author: llk)

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人