英伟达经济学:云服务商在GPU上每花1美元 就能赚7美元

英伟达经济学:云服务商在GPU上每花1美元 就能赚7美元 Buck表示,竞相建设大型数据中心的公司将特别受益,并在数据中心四到五年的使用寿命内获得丰厚的回报,“云提供商在购买 GPU 上花费的每一美元,四年内(通过提供算力服务GAAS)都能收回 5 美元。”“如果用于推理,则更有利可图,每花费 1 美元,在同样的时间段内就能产生 7 美元的营业额,并且这个数字还在增长。”Buck说道。NVIDIA创始人、总裁兼首席执行官黄仁勋和执行副总裁兼首席财务官Colette Kress此前也曾表达过同样的观点。他们此前曾表示,借助CUDA算法创新,NVIDIA将H100的LLM推断速度提升至原来的3倍,这可以将Llama 3这类的模型的成本降低到原来的三分之一,而H200在推理性能上较H100几乎翻了一番,为生产部署带来了巨大的价值。例如,使用7000亿参数的LLama 3,单台HGX H200服务器可以每秒输出24000个Token,同时支持超过2400名用户。这意味着,按照现有的定价来看,托管Llama3的API供应商每花费1美元在NVIDIAHGX H200服务器上,未来四年内就可从Llama3 token计费中赚取7美元收入。围绕 Llama、Mistral 或 Gemma 的 AI 推理模型正在不断发展,并由Token提供服务。NVIDIA正在将开源 AI 模型打包到名为 Nvidia 推理微服务 (NIM) 的容器中。NVIDIA最新推出的Blackwell 针对推理进行了优化,支持 FP4 和 FP6 数据类型,在运行低强度 AI 工作负载时可进一步提高能效。根据官方的数据,与Hopper相比,Blackwell 训练速度比H100快4倍,推断速度快30倍,并且能够实时运行万亿参数大语言模型生成式AI,可进一步将成本和能耗降低到原来的25分之一。这似乎呼应了黄仁勋多次喊出的“买的越多,省的越多”的口号,但不可忽视的是,NVIDIA GPU价格也在快速上涨。为 Rubin GPU做准备很多云提供商提前两年就已经开始规划新的数据中心,并希望了解未来的AI GPU 架构会是什么样子。NVIDIA在6月初的Computex 2024展会上宣布,Blackwell芯片现已开始投产,即将替代Hopper芯片。2025年将会推出Blackwell Ultra GPU芯片。NVIDIA还公布了下一代集成HBM4的名为“Rubin”的AI平台,该GPU将于2026年发布,以替代Blackwell和Blackwell Ultra GPU。“对我们来说,做到这一点真的很重要数据中心不是凭空而来的,它们是大型建设项目。他们需要了解Blackwell 数据中心会是什么样子,它与Hopper数据中心有何不同。”Buck说。Blackwell 提供了一个转向更密集的计算形式和使用液体冷却等技术的机会,因为空气冷却效率不高。NVIDIA已经宣布每年都会推出一款新的 GPU的节奏,这有助于公司跟上 AI 发展的步伐,进而帮助客户规划产品和 AI 战略。Buck说:“NVIDIA已经与那些最大的客户针对Rubin GPU探讨了一段时间他们知道我们的目标和时间表。”AI 的速度和能力与硬件直接相关。在 GPU 上投入的资金越多,AI公司就能训练出更大的模型,从而带来更多收入。微软和谷歌将自己的未来寄托在人工智能上,并竞相开发更强大的大型语言模型。微软严重依赖新的 GPU 来支撑其 GPT-4 后端,而谷歌则依赖其 TPU 来运行其人工智能基础设施。Blackwell供不应求NVIDIA目前正在生产 Blackwell GPU,样品很快就会发布。但客户可以预料,首批 GPU(将于年底发货)将供不应求。“每一项新技术的转型都会带来……供需方面的挑战。我们在 Hopper 上就经历过这种情况,Blackwell 的产能提升也将面临类似的供需限制……今年年底到明年。”Buck 说道。Buck还表示,数据中心公司正在淘汰 CPU 基础设施,为更多 GPU 腾出空间。Hopper GPU 可能会被保留,而基于旧 Ampere 和 Volta 架构的旧 GPU 则会被转售。NVIDIA将保留多个级别的 GPU,随着 Blackwell 的不断发展,Hopper 将成为其主流 AI GPU。NVIDIA已经进行了多项硬件和软件改进,以提高 Hopper 的性能。未来所有云提供商都将提供 Blackwell GPU 和服务器。专家模型Buck 表示,GPT-4 模型大约有 1.8 万亿个参数,由于 AI 扩展尚未达到极限,参数数量还将继续增长。“人类大脑的规模大概相当于 1000 亿到 150 万亿个参数,具体数量取决于个人,取决于大脑中的神经元和连接。目前,人工智能的参数规模约为 2 万亿……我们尚未进行推理。”Buck说道。未来将会有一个包含数万亿个参数的大型模型,在此基础上会构建更小、更专业的模型。参数数量越多对NVIDIA越有利,因为它有助于销售更多 GPU。NVIDIA正在调整其 GPU 架构,从原来的基础模型方法转向混合专家模型。专家混合涉及多个神经网络通过相互参考来验证答案。Buck说:“1.8 万亿参数的 GPT 模型有 16 个不同的神经网络,它们都试图回答各自层的部分问题,然后商讨、会面并决定正确答案是什么。”即将推出的 GB200 NVL72 机架式服务器配备 72 个 Blackwell GPU 和 36 个 Grace CPU,专为混合专家模型而设计。多个 GPU 和 CPU 相互连接,从而支持混合专家模型。“这些家伙都可以相互通信,而不会在 I/O 上受阻。这种演变在模型架构中不断发生,”Buck 说。锁定客户的技巧NVIDIA首席执行官黄仁勋本月在 HPE 的 Discover 大会上发表了一些激烈的言论,呼吁人们购买更多该公司的硬件和软件。NVIDIA和 HPE 宣布推出一系列新产品,其名称简单明了,为“Nvidia AI Computing by HPE”。“我们设计了小号、中号、大号和特大号,你可以选择,而且正如你所知,你买得越多,省得越多。”黄在 Discover 的舞台上说道。黄仁勋今年早些时候还发表了另一条备受争议的言论,当时他说未来的程序员不需要学习如何编写代码,但在 Nvidia GPU 上加载 AI 模型需要了解命令行和脚本,以创建和运行 AI 环境。NVIDIA的专有言论和在人工智能市场的完全主导地位使其成为反垄断调查的目标。当 Buck 试图淡化人们对 CUDA 的担忧时,他必须小心谨慎,他表示“护城河是一个复杂的词”。NVIDIA两位高管都表示,CUDA 是其 GPU 的必备软件要最大限度地发挥 GPU 的性能,就需要 CUDA。开源软件可以与 Nvidia GPU 配合使用,但无法提供 CUDA 库和运行时的强大功能。向下兼容性和连续性是NVIDIA的独特优势,NVIDIA对AI 模型和软件的支持可以延续到下一代 GPU。但对于英特尔的 Gaudi 等 ASIC 则不然,它们必须针对每个新模型重新进行调整。 ... PC版: 手机版:

相关推荐

封面图片

英伟达发布用于AI的"世界上最强大芯片"Blackwell B200 GPU

英伟达发布用于AI的"世界上最强大芯片"Blackwell B200 GPU NVIDIA 首席执行官黄仁勋在 GTC 现场直播中举起他的新 GPU(左边),右边是 H100。NVIDIA 表示,新的 B200 GPU 拥有 2080 亿个晶体管,可提供高达 20petaflops 的 FP4 算力,而 GB200 将两个 GPU 和一个 Grace CPU 结合在一起,可为 LLM 推理工作负载提供 30 倍的性能,同时还可能大大提高效率。NVIDIA 表示,与 H100 相比,它的成本和能耗"最多可降低 25 倍"。NVIDIA 声称,训练一个 1.8 万亿个参数的模型以前需要 8000 个 Hopper GPU 和 15 兆瓦的电力。如今,NVIDIA 首席执行官表示,2000 个 Blackwell GPU 就能完成这项工作,耗电量仅为 4 兆瓦。NVIDIA 表示,在具有 1750 亿个参数的 GPT-3 LLM 基准测试中,GB200 的性能是 H100 的 7 倍,而 NVIDIA 称其训练速度是 H100 的 4 倍。这就是 GB200 的样子。两个 GPU、一个 CPU、一块电路板NVIDIA 介绍说,其中一项关键改进是采用了第二代变压器引擎,通过为每个神经元使用四个比特而不是八个比特,将计算能力、带宽和模型大小提高了一倍(前面提到的 FP4 的 20 petaflops)。第二个关键区别只有在连接大量 GPU 时才会出现:新一代 NVLink 交换机可让 576 个 GPU 相互连接,双向带宽达到每秒 1.8 TB。这就要求 NVIDIA 打造一个全新的网络交换芯片,其中包含 500 亿个晶体管和一些自己的板载计算:NVIDIA 表示,该芯片拥有 3.6 teraflops 的 FP8 处理能力。NVIDIA 表示将通过 Blackwell 增加 FP4 和 FP6NVIDIA 表示,在此之前,由 16 个 GPU 组成的集群有 60% 的时间用于相互通信,只有 40% 的时间用于实际计算。当然,NVIDIA 还指望企业大量购买这些 GPU,并将它们包装成更大的设计,比如 GB200 NVL72,它将 36 个 CPU 和 72 个 GPU 集成到一个液冷机架中,可实现总计 720 petaflops 的 AI 训练性能或 1440 petaflops(又称 1.4exaflops)的推理性能。它内部有近两英里长的电缆,共有 5000 条独立电缆。GB200 NVL72机架上的每个托盘包含两个 GB200 芯片或两个 NVLink 交换机,每个机架有 18 个前者和 9 个后者。NVIDIA 称,其中一个机架总共可支持 27 万亿个参数模型。据传,GPT-4 的参数模型约为 1.7 万亿。该公司表示,亚马逊、Google、微软和甲骨文都已计划在其云服务产品中提供 NVL72 机架,但不清楚它们将购买多少。当然,NVIDIA 也乐于为公司提供其他解决方案。下面是用于 DGX GB200 的 DGX Superpod,它将八个系统合而为一,总共拥有 288 个 CPU、576 个 GPU、240TB 内存和 11.5 exaflops 的 FP4 计算能力。NVIDIA 称,其系统可扩展至数万 GB200 超级芯片,并通过其新型 Quantum-X800 InfiniBand(最多 144 个连接)或 Spectrum-X800 以太网(最多 64 个连接)与 800Gbps 网络连接在一起。我们预计今天不会听到任何关于新游戏 GPU 的消息,因为这一消息是在 NVIDIA 的 GPU 技术大会上发布的,而该大会通常几乎完全专注于 GPU 计算和人工智能,而不是游戏。不过,Blackwell GPU 架构很可能也会为未来的 RTX 50 系列桌面显卡提供算力。 ... PC版: 手机版:

封面图片

NVIDIA Blackwell AI GPU的价格约为3-4万美元 开发成本近100亿美元

NVIDIA Blackwell AI GPU的价格约为3-4万美元 开发成本近100亿美元 NVIDIA的Blackwell人工智能图形处理器是业界的下一个大事件,它取代了Hopper H100和H200平台的市场热度和需求。新阵容的首次亮相在市场上引起了极大的反响,无疑将推动未来的发展。然而,由于所有性能都集中在一个 Blackwell GPU 上,英伟达估计在研发方面花费了巨额资金,有报道称,NVIDIA为开发该平台投入了高达 100 亿美元,打破了此前所有财务记录。该消息来自《巴伦周刊》(Barrons)的资深撰稿人@firstadopter,他透露,英伟达为满足市场对其 Blackwell 平台的期望花费了大量资金,该公司计划创造巨大的投资回报率,因为另一条消息显示,英伟达计划将其 Blackwell AI GPU 的售价控制在 3 万至 4 万美元的范围内,这标志着其价格比一代 Hopper 有了相当大的提升。据说,NVIDIA 的 Blackwell B200 的制造成本将超过 6000 美元,该公司计划利用围绕新 GPU 平台的大量关注来获取巨大收益。NVIDIA Blackwell 是首款采用"独家"MCM 设计的产品,在同一芯片上集成了两个 GPU。与 Hopper 系列产品相比,Blackwell 在所有参数上都有 2 至 5 倍的提升,并拥有高达 192 GB 的 HBM3e 内存配置,它的代际提升是惊人的。NVIDIA似乎不会为竞争对手提供任何空间,尽管 AMD 等公司凭借其最新的人工智能产品赢得了一些市场份额,但我们认为从长远来看,NVIDIA显然是赢家,他们将成为市场的主导者。更不用说该公司有望取得的财务进展了,因为他们的投资回报率预计将随着 Blackwell 平台的推出而翻番。 ... PC版: 手机版:

封面图片

英伟达发布下一代AI计算芯片 HGX H200 GPU

英伟达发布下一代AI计算芯片 HGX H200 GPU NVIDIA 今天宣布推出 NVIDIA HGX™ H200,为全球领先的 AI 计算平台带来强大动力。该平台基于 NVIDIA Hopper™ 架构,配备 NVIDIA H200 Tensor Core GPU 和高级内存,可处理生成 AI 和高性能计算工作负载的海量数据。 NVIDIA H200 是首款提供 HBM3e 的 GPU,HBM3e 是更快、更大的内存,可加速生成式 AI 和大型语言模型,同时推进 HPC 工作负载的科学计算。借助 HBM3e,NVIDIA H200 以每秒 4.8 TB 的速度提供 141GB 内存,与前一代 NVIDIA A100 相比,容量几乎翻倍,带宽增加 2.4 倍。 全球领先的服务器制造商和云服务提供商采用 H200 的系统预计将于 2024 年第二季度开始发货。

封面图片

英伟达全面转向开源 GPU 内核模块

英伟达全面转向开源 GPU 内核模块 英伟达在 2022 年宣布开源其 Linux GPU 内核驱动模块,最初针对的是工作站/数据中心 GPU,随着开源内核驱动的改进,开源驱动模块与闭源驱动的性能相差无几。英伟达通过官方博客现在正式宣布,其开源内核模块最终将取代闭源驱动。英伟达称,对于 Grace Hopper 或 Blackwell 等平台,必须使用开源 GPU 内核模块,因为这些平台不支持私有驱动;对于来自 Turing、Ampere、Ada Lovelace 或 Hopper 架构的较新 GPU,它建议切换到开源的 GPU 内核模块;对于 Maxwell、Pascal 或 Volta 架构中的旧版 GPU,开源 GPU 内核模块不兼容,只能继续使用私有驱动。英伟达没有开源其用户空间驱动。 via Solidot

封面图片

NVIDIA Blackwell GPU预计售价3.5万美元 AI服务器售价高达300万美元

NVIDIA Blackwell GPU预计售价3.5万美元 AI服务器售价高达300万美元 NVIDIA 的 Blackwell 产品包括 GPU、超级芯片平台和服务器,是每一家热衷于人工智能的大型科技公司所梦寐以求的。来自汇丰银行的分析师披露了即将推出的组件的预期定价,英伟达的 Blackwell AI 服务器机架这次的价格不菲,将超过 300 万美元大关,B100 GPU 等 AI 加速器单卖的标价也很高。这一消息来自《巴伦周刊》(Barron's)的资深撰稿人@firstadopter引用了汇丰银行(HSBC)对英伟达(NVIDIA)Blackwell产品的分析。从人工智能服务器开始,英伟达 GB200 NVL36 服务器机架的单台售价预计为 180 万美元,而更高级的 NVL72 对应产品的售价则高达 300 万美元。我们在之前的报道中也透露了这一具体数额,因此实际数字可能不会太远。关于单卖的人工智能加速卡,汇丰银行表示,单个 B100 人工智能 GPU 的售价预计约为 3 万至 3.5 万美元,而GB200 超级芯片的单价约为 6 万至 7 万美元。这些超级芯片包含两个 GB100 GPU 和一个 Grace Hopper 芯片,以及一个大型系统内存池(HBM3E)。这些估价也与詹森本人透露的价格基本一致。分析师的估算可能没有考虑实时市场情况、采购量和许多其他因素。因此,根据买家类型和订单的严重程度,实际数字可能会更低甚至更高。现在,如果我们从代际上进行比较,Blackwell 价格肯定要比 Hopper 高。如果 Blackwell AI GPU 架构能够复制 Hopper GPU 的成功应用,那么英伟达的市场份额和主导地位又将会有质的飞跃。谁知道呢,也许它将超越苹果和微软等公司,成为全球最有价值的公司之一。到目前为止,我们已经看到Meta 等公司下达了 Blackwell 订单,微软和 OpenAI 也在其中,而这仅仅是首批订单。NVIDIA公司首席执行官黄仁勋(Jensen Huang)早早识别出人工智能热潮的大手笔确实收到了成效。 ... PC版: 手机版:

封面图片

NVIDIA“最强AI芯片”Blackwell B200 GPU令业内惊呼新的摩尔定律诞生

NVIDIA“最强AI芯片”Blackwell B200 GPU令业内惊呼新的摩尔定律诞生 在GTC直播中,黄仁勋左手举着 B200 GPU,右手举着 H100此外,将两个B200 GPU与单个Grace CPU 结合在一起的 GB200,可以为LLM推理工作负载提供30倍的性能,并且显著提高效率。黄仁勋还强调称:“与H100相比,GB200的成本和能耗降低了25倍!关于市场近期颇为关注的能源消耗问题,B200 GPU也交出了最新的答卷。黄仁勋表示,此前训练一个1.8 万亿参数模型,需要8000 个 Hopper GPU 并消耗15 MW电力。但如今,2000 个 Blackwell GPU就可以实现这一目标,耗电量仅为4MW。在拥有1750亿参数的GPT-3大模型基准测试中,GB200的性能是H100的7倍,训练速度是H100的4倍。值得一提的是,B200 GPU的重要进步之一,是采用了第二代Transformer引擎。它通过对每个神经元使用4位(20 petaflops FP4)而不是8位,直接将计算能力、带宽和模型参数规模翻了一倍。而只有当这些大量的GPU连接在一起时,第二个重要区别才会显现,那就是新一代NVLink交换机可以让576个GPU相互通信,双向带宽高达1.8TB/秒。而这就需要英伟达构建一个全新的网络交换芯片,其中包括500亿个晶体管和一些自己的板载计算:拥有3.6 teraflops FP8处理能力。在此之前,仅16个GPU组成的集群,就会耗费60%的时间用于相互通信,只有40%的时间能用于实际计算。一石激起千层浪,“最强AI芯片”的推出让网友纷纷赞叹。其中英伟达高级科学家Jim Fan直呼:Blackwell新王诞生,新的摩尔定律已经应运而生。DGX Grace-Blackwell GB200:单个机架的计算能力超过1 Exaflop。黄仁勋交付给OpenAI的第一台DGX是0.17 Petaflops。GPT-4的1.8T参数可在2000个Blackwell上完成90天的训练。还有网友感叹:1000倍成就达成!Blackwell标志着在短短8年内,NVIDIA AI 芯片的计算能力实现了提升1000倍的历史性成就。2016 年,“Pascal”芯片的计算能力仅为19 teraflops,而今天Blackwell的计算能力已经达到了 20000 teraflops。相关文章:全程回顾黄仁勋GTC演讲:Blackwell架构B200芯片登场英伟达扩大与中国车企合作 为比亚迪提供下一代车载芯片英伟达进军机器人领域 发布世界首款人形机器人通用基础模型台积电、新思科技首次采用NVIDIA计算光刻平台:最快加速60倍NVIDIA共享虚拟现实环境技术将应用于苹果Vision Pro黄仁勋GTC演讲全文:最强AI芯片Blackwell问世 推理能力提升30倍 ... PC版: 手机版:

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人