Google 称其 TPU 超算比英伟达 A100 更快更环保

Google本周二在预印本平台arXiv上发表论文,介绍了它的第四代TPU(TensorProcessingUnit)处理器。TPU是Google专用于训练AI的定制处理器,每个TPUv4包含两个TensorCores(TC),每个TC包含四个128x128矩阵乘法单元(MXU)和一个矢量处理单元(VPU),使用128条通道(每通道16ALU)和一个16MB的矢量存储器(VMEM)。Google自己的测试显示,它的TPUv4相对于英伟达的A100更快更环保(能耗更低)。A100是英伟达上一代的数据中心GPU,它最新一代的产品是H100,Google研究人员没有对比TPUv4和H100,因为H100是在TPUv4之后推出的。与英伟达的产品不同的是,GoogleTPU不对外销售,公开TPUv4的一个目的可能是为了宣传该公司的云端TPU服务。()()频道:@TestFlightCN

相关推荐

封面图片

谷歌公布新一代AI超算 称比英伟达A100更快、更节能

谷歌公布新一代AI超算称比英伟达A100更快、更节能目前,谷歌TPU已经进入第四代。谷歌公司在周二发布了一篇科学论文,详细介绍了如何利用自己开发的定制光开关将4000多个芯片连接成一个超级计算机。对于构建AI超级计算机的公司来说,改善这些连接已经成为竞争的关键点,因为所谓的大规模语言模型正在不断增大,已无法在单个芯片上存储,而这些模型正驱动着谷歌的Bard或OpenAI的ChatGPT等技术。这类模型必须分布在成千上万的芯片之间,然后这些芯片要在数周或更长时间内协同工作来训练模型。谷歌的PaLM模型,是迄今为止公开披露的最大语言模型,它通过分布在两台4000芯片的超级计算机上进行了50天的训练。谷歌表示,其超级计算机可以轻松地动态重新配置芯片之间的连接,有助于避免故障并进行性能优化。“电路交换使得我们能够轻松避开故障组件,”谷歌高级研究员NormJouppi和谷歌杰出工程师DavidPatterson在一篇关于该系统的博客文章中写道。“这种灵活性甚至使我们能够改变超级计算机互联网络的拓扑结构,以加速ML(机器学习)模型的性能。”虽然谷歌直到现在才公开其超级计算机的详细信息,但它自2020年以来就已经在俄克拉荷马州梅斯县的数据中心内运行。谷歌表示,初创公司Midjourney使用该系统来训练其模型,该模型在输入几个词的文本后可以生成新的图像。谷歌在论文中表示,与相同规模的系统相比,它的超级计算机比基于英伟达A100芯片的系统更快1.7倍,更节能1.9倍。据了解,A100芯片早于第四代TPU面市。谷歌表示,它没有将第四代TPU与英伟达当前旗舰H100芯片进行比较,因为H100是在谷歌这款芯片应用后上市的,并且采用了更新的技术。谷歌暗示正在研发一款新的TPU,将与英伟达H100竞争,但没有提供详细信息。Jouppi告诉媒体,谷歌有“充足的未来芯片储备”。...PC版:https://www.cnbeta.com.tw/articles/soft/1353045.htm手机版:https://m.cnbeta.com.tw/view/1353045.htm

封面图片

业内人士透露英伟达A100、H100等供不应求 但部分厂商将优先供应

业内人士透露英伟达A100、H100等供不应求但部分厂商将优先供应多家公司加入生成式人工智能研发和应用的赛道,也就增加了对相关服务器的需求,芯片的需求也随之增加。在此前的报道中,外媒就提到,ChatGPT等生成式人工智能的研发及应用,拉升了对英伟达A100、A800、H100等的需求。而业内人士也透露,英伟达A100、A800、H100等人工智能服务器处理器一直供不应求,但谷歌、微软及其他云服务提供商将优先供应。英伟达AI服务器处理器供不应求,从他们增加订单中也能看出端倪。上周有相关媒体在报道中称,英伟达的急单,已经推升了台积电7/6nm和5/4nm这两大制程工艺家族的产能利用率,其中5/4nm工艺的产能已接近饱和。在当时的报道中,外媒还提到有业内人士透露,英伟达A100、A800、H100、A800的大量订单,预计将贯穿今年全年。...PC版:https://www.cnbeta.com.tw/articles/soft/1362891.htm手机版:https://m.cnbeta.com.tw/view/1362891.htm

封面图片

华为高管:升腾人工智能算力性能已超过英伟达A100

华为高管:升腾人工智能算力性能已超过英伟达A100近期举行的2024世界半导体大会暨南京国际半导体博览会的一场分论坛上,江苏鲲鹏·升腾生态创新中心首席运营官王陶透露,升腾集群是国内唯一已完成训练千亿参数大模型的技术路线,性能已经超过了英伟达A100。王陶表示,中国大模型里面,有近50%选择了升腾技术路线。与英伟达A100相比,升腾人工智能芯片在训练效率层面最高是英伟达的1.1倍。尤其在训练MetaLlama、BloomGPT等模型方面,升腾人工智能算力训练效率大大优于英伟达A100,甚至10倍领先其他国产友商。——

封面图片

英伟达“中国特供版”H20 AI芯片综合算力比H100降80%

文件显示,新的H20拥有CoWoS先进封装技术,而且增加了一颗HBM3(高性能内存)到96GB,但成本也随之增加240美元;H20的FP16稠密算力达到148TFLOPS(每秒万亿次浮点运算),是H100算力的15%左右,因此需要增加额外的算法和人员成本等;NVLink则由400GB/s升级至900GB/s,因此互联速率会有较大升级。据评估,H100/H800是目前算力集群的主流实践方案。其中,H100理论极限在5万张卡集群,最多达到10万P算力;H800最大实践集群在2万-3万张卡,共计4万P算力;A100最大实践集群为1.6万张卡,最多为9600P算力。然而,如今新的H20芯片,理论极限在5万张卡集群,但每张卡算力为0.148P,共计近为7400P算力,低于H100/H800、A100。因此,H20集群规模远达不到H100的理论规模,基于算力与通信均衡度预估,合理的整体算力中位数为3000P左右,需增加更多成本、扩展更多算力才能完成千亿级参数模型训练。标签:#Nvidia#英伟达频道:@GodlyNews1投稿:@Godlynewsbot

封面图片

英伟达发布新一代 AI 芯片 H200

英伟达发布新一代AI芯片H200H200利用了美光等公司推出的HBM3e内存,提供了141GB内存容量(H100的1.8倍)和4.8TB/s内存带宽(H100的1.4倍)。大型语言模型推理速度方面,GPT-3175B是H100的1.6倍(A100的18倍),LLaMA270B是H100的1.9倍。英伟达同时宣布2024年的H100产量翻倍,2024年第4季度发布基于新一代Blackwell架构的B100。投稿:@ZaiHuaBot频道:@TestFlightCN

封面图片

A100、A800、H100、H800 与 L40S 即刻生效,NVIDIA 消费性产品 GeForce RTX 4090 出口

A100、A800、H100、H800与L40S即刻生效,NVIDIA消费性产品GeForceRTX4090出口禁令取消2023年10月23日,美国政府通知英伟达公司,针对某些高性能计算产品的新出口管制许可要求将立即生效。这一变化影响了英伟达A100、A800、H100、H800和L40S产品的出货。该公司预计,许可要求提前生效不会对其财务业绩产生重大影响。除了GeForceRTX4090外,L40也被移出名单中。综上以及供应链消息,4090并不会被出口管辖。ViaLingKeQing投稿:@ZaiHuaBot频道:@TestFlightCN

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人