AI芯片供应问题有所缓解一些公司已开始转售英伟达H100 GPU

AI芯片供应问题有所缓解一些公司已开始转售英伟达H100GPU该报道还称，尽管芯片可用性提高，交货期显著缩短，但仍供不应求，尤其是对于那些培训自家大语言模型的公司，如OpenAI。AI处理器短缺的缓解，在一定程度上是由于AWS等云服务提供商让租用英伟达H100GPU变得更容易。这导致了对AI芯片的需求和等待时间的减少。尽管H100的可用性总体上有所改善，但对于开发自家大语言模型的公司，仍在为供应紧张而苦苦挣扎。这主要是因为它们需要数万乃至数十万个GPU，一些公司在获得所需的处理器或容量方面面临着数月的延误。为此，英伟达H100和其他处理器的价格并没有下降，继续享受着高利润率。英伟达AI处理器可用性的提高也导致了买家行为的转变。一些公司在购买或租赁时变得更加注重价格和选择性，并专注于其业务的经济可行性。此外，再加上替代方案在性能和软件支持方面的不断完善，如AMD或AWS的处理器，市场可能会迎来更加平衡的局面。但不管怎样，当前AI芯片的需求依然强劲。随着大语言模型变得更大，对计算性能的需求也越来越高，这也促使OpenAICEO山姆·奥特曼（SamAltman）正试图筹集大量资金，以建造更多的晶圆厂来生产AI处理器。...PC版：https://www.cnbeta.com.tw/articles/soft/1421155.htm手机版：https://m.cnbeta.com.tw/view/1421155.htm

在Telegram中查看

相关推荐

你见过晶圆大小的芯片吗？这家AI独角兽推新品对标英伟达H100

你见过晶圆大小的芯片吗？这家AI独角兽推新品对标英伟达H100据悉，该款芯片将4万亿个晶体管组织在90万个核心中。该芯片针对人工智能训练的工作负载进行了优化。Cerebras公司声称，配备了2048个WSE-3芯片的服务器集群可以在一天内训练出市场上最先进的开源语言模型之一Llama270B。替代英伟达Cerebras是一家美国人工智能芯片的独角兽企业，它背后的投资团队也都实力够硬。最新一笔融资是在2021年由AlphaWaveVenture和阿布扎比增长基金领投，融资金额2.5亿美元，其他的投资人士包括：OpenAI创始人山姆·奥特曼、AMD前首席技术官FredWeber等。2021年，Cerebras公司首次亮相了WSE-2芯片，集成了1.2万亿个晶体管、40万个核心。在同行都在将晶圆分割成数百颗独立芯片之时，Cerebras公司则是选择将整个晶圆做成一颗芯片。而最新发布的WSE-3则是从WSE-2改进而来的。它较WES-2又增加了1.4万亿个晶体管，并拥有90万个计算核心、44GB的板载SRAM内存。强化部分是通过从7纳米制造工艺更新到5纳米节点所实现的。据该公司称，WSE-3在人工智能工作负载方面的性能是其前身的两倍，它的峰值速度可以达到每秒125千万亿次计算。Cerebras还将WSE-3定位为比英伟达显卡更为高效的替代品。根据Cerebras官网的数据，该芯片4万亿个晶体管数完全碾压了英伟达H100GPU的800亿个；核处理器数是单个英伟达H100GPU的52倍；片上存储量是H100的880倍。WSE-3芯片为Cerebras公司的CS-3超级计算机提供动力，CS-3可用于训练具有多达24万亿个参数的人工智能模型，对比由WSE-2和其他常规人工智能处理器驱动的超级计算机，这一数据是个重大飞跃。加速数据传输虽说将晶圆大小的芯片和单个英伟达H100GPU相比较并不公平，不过若从数据传输速度的角度来看，不将晶圆切割成单独的芯片确实有它的优势。根据Cerebras公司的说法，使用单一的大型处理器可以提高人工智能训练工作流程的效率。当WSE-3上的4万亿个晶体管在晶圆上互连时，将会大大加快生成式人工智能的处理时间。人工智能模型就是相对简单的代码片段的集合，这些代码片段被称为人工神经元。这些神经元被重新组织成集合（称为层）。当人工智能模型接收到一个新任务时，它的每一层都会执行任务的一部分，然后将其结果与其他层生成的数据结合起来。由于神经网络太大，无法在单个GPU上运行，因此，这些层需要分布在数百个以上的GPU上，通过频繁地交换数据来协调它们的工作。基于神经网络架构的具体特性，只有获得前一层的全部或部分激活数据，才能在开始分析数据，并提供给下一层。也就意味着，如果这两层的数据运行在不同的GPU上，信息在它们之间传输可能需要很长时间。芯片之间的物理距离越大，数据从一个GPU转移到另一个GPU所需的时间就越长，这会减慢处理速度。而Cerebras的WSE-3有望缩短这一处理时间。如果一个人工智能模型的所有层都在一个处理器上运行，那么数据只需要从芯片的一个角落传输到另一个角落，而不是在两个显卡之间传输。减少数据必须覆盖的距离可以减少传输时间，从而加快处理速度。该公司指出，在如今的服务器集群中，数以万计的GPU被用来处理一个问题，而若是将芯片数量减少50倍以上，就可以降低互连成本以及功效，同时或许也可以解决消耗大量电力的问题。Cerebras联合创始人兼CEOAndrewFeldman称，“当我们八年前开始这一旅程时，每个人都说晶圆级处理器是白日梦…WSE-3是世界上最快的人工智能芯片，专为最新的尖端人工智能工作而打造。”对于新推出地WSE-3芯片，分析公司Intersect360Research首席执行官AddisonSnell认为，Cerebras的WSE-3人工智能芯片和CS-3系统可以使部分高性能计算用户受益。他指出，“该芯片在相同的成本和功率下将性能提高了一倍。”不过，TiriasResearch创始人JimMcGregor则较为现实地指出，尽管这家初创公司增长迅速，并且有能力提高其平台的可扩展性，但与占主导地位的人工智能供应商英伟达相比，它仍然是一家规模较小的公司。他还指出，Cerebras专注于人工智能的一个方面，那就是训练，不过训练只是大型语言模型市场的一个利基市场。而英伟达提供了许多其他方面产品。...PC版：https://www.cnbeta.com.tw/articles/soft/1423681.htm手机版：https://m.cnbeta.com.tw/view/1423681.htm

AI芯片短缺拖累科技公司收益英伟达H100据称明年出货至少增两倍

AI芯片短缺拖累科技公司收益英伟达H100据称明年出货至少增两倍据预计，英伟达的AI处理器H100当前只能满足一半的市场需求。三位知情人士称，英伟达明年的出货量将达到150颗部至200万颗，相较今年预计的50万颗提高了至少两倍。对英伟达AI芯片的巨大需求正冲击着更广泛的计算设备市场，因为大型买家纷纷在AI领域投入大量资金的同时，也相应地削减了在通用服务器市场的投资。作为全球最大的电子产品代工制造商，富士康上周预计，未来几年AI服务器的需求将非常强劲。但该公司同时警告称，今年整体服务器市场的营收将下降。联想是全球出货量最高的计算器制造商，该公司上周发布了2023年第二季度财报，营收同比下滑8%，原因是云服务提供商（CSP）对服务器的需求疲软，以及AI处理器（GPU）的短缺。联想CEO杨元庆对称：“云服务提供商正将他们的需求从传统计算机转移到AI服务器。但遗憾的是，AI服务器的供应受到了GPU供应的限制。台积电上个月曾预计，未来5年对AI服务器芯片的需求，将以每年近50%的速度递增。按营收计算，台积电是全球最大的芯片代工制造商，也是英伟达AI处理器的独家生产商。但台积电同时表示，这还不足以抵消经济低迷导致的全球科技低迷带来的下行压力。美国微软、亚马逊和谷歌等云服务提供商正将重点转向建设自家AI基础设施。凯基证券（KGI）副总裁AngelaHsiang对此表示：“整体低迷的经济环境，对美国的云服务提供商带来了挑战。由于AI服务器中的每个组件都需要升级，所以成本非常高。”虽然云服务提供商正在AI服务器领域积极扩张，但在制定总资本支出预算时，这并不在考虑之列，因此这种扩张正在蚕食其他方面的支出。调研公司CounterpointResearch数据显示，在全球范围内，随着利率上升和企业削减开支，预计今年云服务提供商的资本支出将仅增长8%，低于2022年的近25%。图：全球主要云巨头的AI支出占比研究公司集邦咨询（TrendForce）预计，今年全球服务器出货量将下滑6%，而2024年将恢复到2%至3%的温和增长。集邦咨询还特别提到了Meta和微软。其中，Meta决定削减逾10%的服务器采购，转而投资AI硬件。而微软则推迟升级其通用服务器，以腾出资金投资AI服务器。分析师们还指出，除了英伟达芯片短缺，供应链中的其他瓶颈也在拖累着AI硬件产品的产量，以及企业的人工智能收益。CounterpointResearch分析师BradyWang称：“在先进封装和高带宽存储器（HBM）方面也存在缺口，也都限制了AI产品的产量。”台积电已计划将其CoWoS封装产能提高一倍，但同时也警告称，瓶颈至少要到2024年底才能解决。CoWoS是制造英伟达H100处理器所需的一种先进封装技术。而高带宽存储器的两个主要供应商是SK海力士和三星。尽管如此，企业高管和分析师们表示，一旦全球经济好转，短缺情况缓解，服务器供应链中的企业将受益。与通用服务器相比，生成式AI服务器的功耗要高得多，这也创造出了对不同的冷却系统和新的电源规格的需求。富士康可能是这一转变的主要受益者之一，因为它提供从各种零部件到最终组装的一切服务，其附属公司富士康工业互联网股份有限公司已经是英伟达GPU模块的独家供应商。另据高盛数据显示，对于富士康竞争对手纬创旗下专门从事服务器业务的子公司WiWynn而言，AI订单已占到其营收的50%，是去年的两倍多。此外，零部件供应商也有强劲的上行空间。高盛6月份曾在一份报告中称，印刷电路板（PCB）制造商GoldCircuitElectronic来自AI服务器的营收比例将从今年的不足3%提高到38%。这主要是因为AI服务器中的印刷电路板用量是通用服务器的7倍。...PC版：https://www.cnbeta.com.tw/articles/soft/1379019.htm手机版：https://m.cnbeta.com.tw/view/1379019.htm

英伟达财报“预热”：投行曝H100芯片利润率达1000%

英伟达财报“预热”：投行曝H100芯片利润率达1000%知名科技媒体Tom'sHardware称，这份报告意味着对英伟达公司来说，H100芯片的成本利润率高达1,000%，即十倍。由于不清楚瑞杰金融的成本分析有多深入，英伟达可能还需要在其他方面支付额外的费用，但费用空间是比较大的。来源：Tom'sHardware据了解，H100是目前训练大语言模型最需要的图形处理器（GPU），因为它对于大模型的推理和训练都是速度最快的，通常也是推理方面性价比最高的。它可以应用于各种AI场景，如AI聊天机器人、推荐引擎、视觉AI、数据分析、高性能计算等。H100芯片还可以搭配英伟达AIEnterprise软件套件，为企业提供端到端的AI就绪型基础架构。英伟达CEO黄仁勋将其描述为“世界上第一款专为生成式人工智能而设计的计算机芯片”。报道指出，产品开发需要时间和资源，在得出最终的平均产品开发成本之前，英伟达的研发成本也必须考虑在内。这一类别包括工程师和其他参与H100等产品开发生命周期的人员。据匿名评论平台GlaSSDoor的数据，英伟达电子硬件工程师的平均年薪约为20.2万美元，而开发H100等芯片很可能需要数千位这样薪资水平的专业人员。但即使这样，“十倍成本利润率”也足以令人叹为观止，凸显了公司充分享受到了AI时代“卖铲人”的超额红利。然而，H100的供应却十分紧张，据称英伟达的订单量已经排满到2024年，但这一消息尚未得到公司的确认。本周，沙特和阿联酋被曝正在“疯狂下单”英伟达的AI芯片。知情人士透露，沙特已通过公共研究机构阿卜杜拉国王科技大学购买了至少3000枚H100；阿联酋也已经确保自己将获得数千枚芯片。上周还有消息称，百度、字节跳动、腾讯和阿里巴巴等互联网巨头在争相购买英伟达的高性能芯片，订单总和价值高达50亿美元。先前，OpenAICEO山姆·阿尔特曼和特斯拉CEO埃隆·马斯克也先后抱怨GPU不够用。周一，摩根士丹利分析师JosephMoore表示，他依然看好英伟达公司的股票，并将其视为“首选”（toppick），目标价为每股500美元。Moore提到，英伟达定于美股8月23日盘后（北京时间8月24日凌晨）公布业绩，“尽管供应紧张，我们仍然预计业绩会显著超越预期并获得上调，更重要的是，未来三至四个财季的业绩会有很强的可见性。”...PC版：https://www.cnbeta.com.tw/articles/soft/1378037.htm手机版：https://m.cnbeta.com.tw/view/1378037.htm

微软推出 ND H100 v5 虚拟机：采用英伟达 H100 GPU，满足企业 ChatGPT 生成式 AI 需求

微软推出NDH100v5虚拟机：采用英伟达H100GPU，满足企业ChatGPT生成式AI需求微软于今天宣布加强和英伟达的合作，将GPU从此前的A100升级到H100，推出专门针对人工智能开发的全新的虚拟机。微软表示该虚拟机主要面向需要整合或开发人工智能的企业，配置如下：▪8块英伟达H100TensorCoreGPU，通过下一代NVSwitch和NVLink4.0互连▪在非阻塞（non-blocking）的胖树（Fat-Tree）架构网络下，每块GPU的NVIDIAQuantum-2CX7InfiniBand性能可以达到400Gb/s，每台虚拟机可以达到3.2Tb/s。▪通过NVSwitch和NVLink4.0，每台虚拟机内的8个本地GPU之间的对分带宽为3.6TB/s。▪采用英特尔第4代XeonScalable处理器▪使用PCIeGen5连接GPU，每个GPU带宽为64GB/s▪16通道4800MHzDDR5DIMM微软先前在AzureOpenAI服务中宣布了ChatGPT相关服务，而本次虚拟机是该服务的补充，它允许第三方通过Azure访问聊天机器人技术。来自：雷锋频道：@kejiqu群组：@kejiquchat投稿：@kejiqubot

AMD 正式发布 MI300 加速器，性能较英伟达 H100 芯片提高 60%

AMD正式发布MI300加速器，性能较英伟达H100芯片提高60%在美国加州圣何塞举行的AI特别活动中，AMD宣布正式推出其旗舰AIGPU加速器MI300X，并称其性能比英伟达的H100芯片提高了60%。据AMD介绍，新芯片为性能最高的芯片，拥有超过1500亿个晶体管。与英伟达H100芯片相比，AMD新芯片的内存为其2.4倍，内存带宽为其1.6倍，训练性能与H100芯片相当，在运行AI模型方面则比英伟达快得多。——、

碾压H100！英伟达GH200超级芯片首秀性能跃升17%

碾压H100！英伟达GH200超级芯片首秀性能跃升17%而这，这也是英伟达GH200测试成绩的首次亮相！相比于单张H100配合英特尔CPU，GH200的GraceCPU+H100GPU的组合，在各个项目上都有15%左右的提升。英伟达GH200超级芯片首秀毫无疑问，英伟达的GPU在MLPerfInference3.1基准测试中表现是最亮眼的。其中，最新发布的GH200GraceHopper超级芯片，也是首次在MLPerfInference3.1上亮相。GraceHopper超级芯片将英伟达的GraceCPU与H100GPU集成在一起，通过超高的带宽连接，从而比单个H100配合其他的CPU能提供更强的性能表现。“GraceHopper首次展示了非常强劲的性能，与我们的H100GPU提交相比，性能提高了17%，我们已经全面领先，”英伟达人工智能总监DaveSalvator在新闻发布会上表示。性能大幅增长具体来说，它将一个H100GPU和GraceCPU集成在一起，通过900GB/s的NVLink-C2C连接。而CPU和GPU分别配备了480GB的LPDDR5X内存和96GB的HBM3或者144GB的HBM3e的内存，集成了高达576GB以上的高速访问内存。英伟达GH200GraceHopper超级芯片专为计算密集型工作负载而设计，能够满足各种严苛的要求和各项功能。比如训练和运行数万亿参数的大型Transformer模型，或者是运行具有数TB大小的嵌入表的推荐系统和向量数据库。GH200GraceHopper超级芯片还在MLPerfInference测试中有着非常优异的表现，刷新了英伟达单个H100SXM在每个项目中创下的最佳成绩。NVIDIAGraceHopperMLPerfInference数据中心性能与DGXH100SXM的对比结果，每个数值都是GH200的性能领先幅度GH200GraceHopper超级芯片集成了96GB的HBM3，并提供高达4TB/s的HBM3内存带宽，而H100SXM分别为80GB和3.35TB/s。与H100SXM相比，更大的内存容量和更大的内存带宽使得在NVIDIAGH200GraceHopper超级芯片上使用更大的批处理大小来处理工作负载。例如，在服务器场景中，RetinaNet和DLRMv2的批处理大小都增加了一倍，在离线场景中，批处理大小增加了50%。GH200GraceHopper超级芯片在HopperGPU和GraceCPU之间的高带宽NVLink-C2C连接可以实现CPU和GPU之间的快速通信，从而有助于提高性能。例如，在MLPerfDLRMv2中，在H100SXM上通过PCIe传输一批张量（Tensor）大约需要22%的批处理推理时间。使用了NVLink-C2C的GH200GraceHopper超级芯片仅使用3%的推理时间就完成了相同的传输。由于具有更高的内存带宽和更大的内存容量，与MLPerfInferencev3.1的H100GPU相比，GraceHopper超级芯片的单芯片性能优势高达17%。推理和训练全面领先在MLPerf的首秀中，GH200GraceHopperSuperchip在封闭类别（ClosedDivision）的所有工作负载和场景上都表现出卓越的性能。而在主流的服务器应用中，L4GPU能够提供一个低功耗，紧凑型的算力解决方案，与CPU解决方案相比的性能也有了大幅的提升。Salvator表示，“与测试中最好的x86CPU相比，L4的性能也非常强劲，提高了6倍”。对于其他的AI应用和机器人应用，JetsonAGXOrin和JetsonOrinNX模块实现了出色的性能。未来的软件优化有助于进一步释放强大的英伟达OrinSoC在这些模块中的潜力。在目前非常流行的目标检测AI网络——RetinaNet上，英伟达的产品的性能提高了高达84%。英伟达开放部分（OpenDivision）的结果，展示了通过模型优化可以在保持极高精度的同时大幅提高推理性能的潜力。全新MLPerf3.1基准测试当然，这并不是MLCommons第一次尝试对大语言模型的性能进行基准测试。早在今年6月，MLPerfv3.0就首次加入了LLM训练的基准测试。不过，LLM的训练和推理任务，区别很大。推理工作负载对计算要求高，而且种类繁多，这就要求平台能够快速处理各种类型的数据预测，并能在各种AI模型上进行推理。对于希望部署AI系统的企业来说，需要一种方法来客观评估基础设施在各种工作负载、环境和部署场景中的性能。所以对于训练和推理的基准测试都是很重要的。MLPerfInferencev3.1包括了两项重要更新，来更好地反映现在AI实际的使用情况：首先，增加了基于GPT-J的大型语言模型(LLM)推理的测试。GPT-J是一个开源的6B参数LLM，对CNN/每日邮报数据集进行文本总结。除了GPT-J之外，这次还更新了DLRM测试。针对MLPerfTrainingv3.0中引入的DLRM，采用了新的模型架构和更大的数据集，更好地反映了推荐系统的规模和复杂性。MLCommons创始人兼执行董事DavidKanter表示，训练基准侧重于更大规模的基础模型，而推理基准执行的实际任务，则代表了更广泛的用例，大部分组织都可以进行部署。在这方面，为了能够对各种推理平台和用例进行有代表性的测试，MLPerf定义了四种不同的场景。每个基准都由数据集和质量目标定义。每个基准都需要以下场景：在MLPerfv3.1基准测试中，有超过13,500个结果，其中不少提交者的性能比3.0基准提高了20%，甚至更多。其他提交者包括华硕，Azure，cTuning，ConnectTech，戴尔，富士通，GigaComputing，Google，H3C，HPE，IEI，英特尔，IntelHabanaLabs，Krai，联想，墨芯，NeuralMagic，Nutanix，甲骨文，高通，QuantaCloudTechnology，SiMA，Supermicro，TTA和xFusion等。...PC版：https://www.cnbeta.com.tw/articles/soft/1383343.htm手机版：https://m.cnbeta.com.tw/view/1383343.htm

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人