郭明:英伟达B100基板单价较H100高约10%郭明今日指出,ODM厂商纬创为英伟达2024年CoWoSAI芯片基板的最大供

None

相关推荐

封面图片

英伟达财报“预热”:投行曝H100芯片利润率达1000%

英伟达财报“预热”:投行曝H100芯片利润率达1000%知名科技媒体Tom'sHardware称,这份报告意味着对英伟达公司来说,H100芯片的成本利润率高达1,000%,即十倍。由于不清楚瑞杰金融的成本分析有多深入,英伟达可能还需要在其他方面支付额外的费用,但费用空间是比较大的。来源:Tom'sHardware据了解,H100是目前训练大语言模型最需要的图形处理器(GPU),因为它对于大模型的推理和训练都是速度最快的,通常也是推理方面性价比最高的。它可以应用于各种AI场景,如AI聊天机器人、推荐引擎、视觉AI、数据分析、高性能计算等。H100芯片还可以搭配英伟达AIEnterprise软件套件,为企业提供端到端的AI就绪型基础架构。英伟达CEO黄仁勋将其描述为“世界上第一款专为生成式人工智能而设计的计算机芯片”。报道指出,产品开发需要时间和资源,在得出最终的平均产品开发成本之前,英伟达的研发成本也必须考虑在内。这一类别包括工程师和其他参与H100等产品开发生命周期的人员。据匿名评论平台GlaSSDoor的数据,英伟达电子硬件工程师的平均年薪约为20.2万美元,而开发H100等芯片很可能需要数千位这样薪资水平的专业人员。但即使这样,“十倍成本利润率”也足以令人叹为观止,凸显了公司充分享受到了AI时代“卖铲人”的超额红利。然而,H100的供应却十分紧张,据称英伟达的订单量已经排满到2024年,但这一消息尚未得到公司的确认。本周,沙特和阿联酋被曝正在“疯狂下单”英伟达的AI芯片。知情人士透露,沙特已通过公共研究机构阿卜杜拉国王科技大学购买了至少3000枚H100;阿联酋也已经确保自己将获得数千枚芯片。上周还有消息称,百度、字节跳动、腾讯和阿里巴巴等互联网巨头在争相购买英伟达的高性能芯片,订单总和价值高达50亿美元。先前,OpenAICEO山姆·阿尔特曼和特斯拉CEO埃隆·马斯克也先后抱怨GPU不够用。周一,摩根士丹利分析师JosephMoore表示,他依然看好英伟达公司的股票,并将其视为“首选”(toppick),目标价为每股500美元。Moore提到,英伟达定于美股8月23日盘后(北京时间8月24日凌晨)公布业绩,“尽管供应紧张,我们仍然预计业绩会显著超越预期并获得上调,更重要的是,未来三至四个财季的业绩会有很强的可见性。”...PC版:https://www.cnbeta.com.tw/articles/soft/1378037.htm手机版:https://m.cnbeta.com.tw/view/1378037.htm

封面图片

英伟达为何力推“主权AI”?多位行业人士认为,英伟达为向各国政府推销A100/H100/B100等先进AI芯片,制造了“主权AI

封面图片

碾压H100!英伟达GH200超级芯片首秀 性能跃升17%

碾压H100!英伟达GH200超级芯片首秀性能跃升17%而这,这也是英伟达GH200测试成绩的首次亮相!相比于单张H100配合英特尔CPU,GH200的GraceCPU+H100GPU的组合,在各个项目上都有15%左右的提升。英伟达GH200超级芯片首秀毫无疑问,英伟达的GPU在MLPerfInference3.1基准测试中表现是最亮眼的。其中,最新发布的GH200GraceHopper超级芯片,也是首次在MLPerfInference3.1上亮相。GraceHopper超级芯片将英伟达的GraceCPU与H100GPU集成在一起,通过超高的带宽连接,从而比单个H100配合其他的CPU能提供更强的性能表现。“GraceHopper首次展示了非常强劲的性能,与我们的H100GPU提交相比,性能提高了17%,我们已经全面领先,”英伟达人工智能总监DaveSalvator在新闻发布会上表示。性能大幅增长具体来说,它将一个H100GPU和GraceCPU集成在一起,通过900GB/s的NVLink-C2C连接。而CPU和GPU分别配备了480GB的LPDDR5X内存和96GB的HBM3或者144GB的HBM3e的内存,集成了高达576GB以上的高速访问内存。英伟达GH200GraceHopper超级芯片专为计算密集型工作负载而设计,能够满足各种严苛的要求和各项功能。比如训练和运行数万亿参数的大型Transformer模型,或者是运行具有数TB大小的嵌入表的推荐系统和向量数据库。GH200GraceHopper超级芯片还在MLPerfInference测试中有着非常优异的表现,刷新了英伟达单个H100SXM在每个项目中创下的最佳成绩。NVIDIAGraceHopperMLPerfInference数据中心性能与DGXH100SXM的对比结果,每个数值都是GH200的性能领先幅度GH200GraceHopper超级芯片集成了96GB的HBM3,并提供高达4TB/s的HBM3内存带宽,而H100SXM分别为80GB和3.35TB/s。与H100SXM相比,更大的内存容量和更大的内存带宽使得在NVIDIAGH200GraceHopper超级芯片上使用更大的批处理大小来处理工作负载。例如,在服务器场景中,RetinaNet和DLRMv2的批处理大小都增加了一倍,在离线场景中,批处理大小增加了50%。GH200GraceHopper超级芯片在HopperGPU和GraceCPU之间的高带宽NVLink-C2C连接可以实现CPU和GPU之间的快速通信,从而有助于提高性能。例如,在MLPerfDLRMv2中,在H100SXM上通过PCIe传输一批张量(Tensor)大约需要22%的批处理推理时间。使用了NVLink-C2C的GH200GraceHopper超级芯片仅使用3%的推理时间就完成了相同的传输。由于具有更高的内存带宽和更大的内存容量,与MLPerfInferencev3.1的H100GPU相比,GraceHopper超级芯片的单芯片性能优势高达17%。推理和训练全面领先在MLPerf的首秀中,GH200GraceHopperSuperchip在封闭类别(ClosedDivision)的所有工作负载和场景上都表现出卓越的性能。而在主流的服务器应用中,L4GPU能够提供一个低功耗,紧凑型的算力解决方案,与CPU解决方案相比的性能也有了大幅的提升。Salvator表示,“与测试中最好的x86CPU相比,L4的性能也非常强劲,提高了6倍”。对于其他的AI应用和机器人应用,JetsonAGXOrin和JetsonOrinNX模块实现了出色的性能。未来的软件优化有助于进一步释放强大的英伟达OrinSoC在这些模块中的潜力。在目前非常流行的目标检测AI网络——RetinaNet上,英伟达的产品的性能提高了高达84%。英伟达开放部分(OpenDivision)的结果,展示了通过模型优化可以在保持极高精度的同时大幅提高推理性能的潜力。全新MLPerf3.1基准测试当然,这并不是MLCommons第一次尝试对大语言模型的性能进行基准测试。早在今年6月,MLPerfv3.0就首次加入了LLM训练的基准测试。不过,LLM的训练和推理任务,区别很大。推理工作负载对计算要求高,而且种类繁多,这就要求平台能够快速处理各种类型的数据预测,并能在各种AI模型上进行推理。对于希望部署AI系统的企业来说,需要一种方法来客观评估基础设施在各种工作负载、环境和部署场景中的性能。所以对于训练和推理的基准测试都是很重要的。MLPerfInferencev3.1包括了两项重要更新,来更好地反映现在AI实际的使用情况:首先,增加了基于GPT-J的大型语言模型(LLM)推理的测试。GPT-J是一个开源的6B参数LLM,对CNN/每日邮报数据集进行文本总结。除了GPT-J之外,这次还更新了DLRM测试。针对MLPerfTrainingv3.0中引入的DLRM,采用了新的模型架构和更大的数据集,更好地反映了推荐系统的规模和复杂性。MLCommons创始人兼执行董事DavidKanter表示,训练基准侧重于更大规模的基础模型,而推理基准执行的实际任务,则代表了更广泛的用例,大部分组织都可以进行部署。在这方面,为了能够对各种推理平台和用例进行有代表性的测试,MLPerf定义了四种不同的场景。每个基准都由数据集和质量目标定义。每个基准都需要以下场景:在MLPerfv3.1基准测试中,有超过13,500个结果,其中不少提交者的性能比3.0基准提高了20%,甚至更多。其他提交者包括华硕,Azure,cTuning,ConnectTech,戴尔,富士通,GigaComputing,Google,H3C,HPE,IEI,英特尔,IntelHabanaLabs,Krai,联想,墨芯,NeuralMagic,Nutanix,甲骨文,高通,QuantaCloudTechnology,SiMA,Supermicro,TTA和xFusion等。...PC版:https://www.cnbeta.com.tw/articles/soft/1383343.htm手机版:https://m.cnbeta.com.tw/view/1383343.htm

封面图片

微软总裁:和瑞典最初讨论的是像英伟达H100这样的芯片。

封面图片

英特尔推出性能超越英伟达 H100 的 Gaudi 3 AI 加速芯片

英特尔推出性能超越英伟达H100的Gaudi3AI加速芯片英特尔Vision2024大会的第二天,英特尔正式推出了Gaudi3加速芯片。Gaudi3使用台积电5nm工艺制造,热设计功耗为900W,FP8精度下的峰值性能为1835TFLOPS。英特尔称Gaudi3在16个芯片组成的加速集群中以FP8精度训练Llama2-13B时比性能H100高出1.7倍。同时,英特尔预计Gaudi3的推理性能将比H200/H100提高1.3倍到1.5倍,能效比将高2.3倍。英特尔已经向客户提供了样片,并将在第三季度正式批量交付。——

封面图片

业内人士透露英伟达A100、H100等供不应求 但部分厂商将优先供应

业内人士透露英伟达A100、H100等供不应求但部分厂商将优先供应多家公司加入生成式人工智能研发和应用的赛道,也就增加了对相关服务器的需求,芯片的需求也随之增加。在此前的报道中,外媒就提到,ChatGPT等生成式人工智能的研发及应用,拉升了对英伟达A100、A800、H100等的需求。而业内人士也透露,英伟达A100、A800、H100等人工智能服务器处理器一直供不应求,但谷歌、微软及其他云服务提供商将优先供应。英伟达AI服务器处理器供不应求,从他们增加订单中也能看出端倪。上周有相关媒体在报道中称,英伟达的急单,已经推升了台积电7/6nm和5/4nm这两大制程工艺家族的产能利用率,其中5/4nm工艺的产能已接近饱和。在当时的报道中,外媒还提到有业内人士透露,英伟达A100、A800、H100、A800的大量订单,预计将贯穿今年全年。...PC版:https://www.cnbeta.com.tw/articles/soft/1362891.htm手机版:https://m.cnbeta.com.tw/view/1362891.htm

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人