ChatGPT需要1万张NVIDIA A100显卡 国内仅有6家公司做到

ChatGPT需要1万张NVIDIAA100显卡国内仅有6家公司做到他们是商汤、百度、腾讯、字节、阿里和幻方,其中百度、腾讯、字节、阿里这样的互联网巨头能买到且买得起1万张A100显卡不让人意外。百度3月底已经发布了自己对标ChatGPT的产品文心一言,接下来其他公司也会陆续发布自己的AI产品。NVIDIAA100核心及计算卡是2020年5月份发布的,也是安培架构的第一款产品,7nm工艺制造,542亿个晶体管,826平方毫米面积,8196个流处理器,实际开启6912个,搭配5120-bit40GBHBM2显存,PCIe版本功耗250W。A100的单精度浮点性能高达19.5TFlops,FP64性能9.7TFLOPS,INT8性能624TOPS,TDP400W,显存的带宽也是恐怖的1.6TB/s,后期还发布过80GBHBM2e的版本,频率从2.4Gbps提升到3.2Gbps,使得带宽从1.6TB/s提升到2TB/s。...PC版:https://www.cnbeta.com.tw/articles/soft/1353167.htm手机版:https://m.cnbeta.com.tw/view/1353167.htm

相关推荐

封面图片

NVIDIA最强显卡H100找到外援 产能大增30%

NVIDIA最强显卡H100找到外援产能大增30%NVIDIA的高端GPU采用了台积电的7nm、5nm工艺代工,但是产能瓶颈不在先进工艺上,而是所用的Cowos先进封装上,此前也是依赖台积电,但后者的产能提升有限,还有AMD等公司的订单抢产能。最新消息称,联电也开始给NVIDIA提供外援了,7月份起每个月增加3000片晶圆的Cowos中介层产能,然后再有另一家封测大厂Amkor安靠封装,三方的合作使得A100、H100的整体产能提升了30%。供应量上来了,A100、H100等显卡的供应情况应该会有所缓解,下半年有望解决加价抢购的麻烦。H100基于GH100GPU核心,定制版台积电4nm工艺制造,800晶体管,集成18432个CUDA核心、576个张量核心、60MB二级缓存,支持6144-bitHBM高带宽内存,支持PCIe5.0。性能方面,FP64/FP3260TFlops(每秒60万亿次),FP162000TFlops(每秒2000万亿次),TF321000TFlops(每秒1000万亿次),都三倍于A100,FP84000TFlops(每秒4000万亿次),六倍于A100。...PC版:https://www.cnbeta.com.tw/articles/soft/1369081.htm手机版:https://m.cnbeta.com.tw/view/1369081.htm

封面图片

售价超25万 NVIDIA顶级显卡抢购到明年:台积电加急生产

售价超25万NVIDIA顶级显卡抢购到明年:台积电加急生产订单在手,NVIDIA也紧急向台积电下单增产A100、H100等高性能AI显卡,导致后者的5nm产能利用率几近满载,现在台积电采用的是超级急件的方式给NVIDIA生产。即便如此,订单到今年底都是满载的,实在是太火了。H100基于GH100GPU核心,定制版台积电4nm工艺制造,800晶体管,集成18432个CUDA核心、576个张量核心、60MB二级缓存,支持6144-bitHBM高带宽内存,支持PCIe5.0。H100计算卡有SXM、PCIe5.0两种样式,其中SXM版本15872个CUDA核心、528个Tensor核心,PCIe5.0版本14952个CUDA核心、456个Tensor核心,功耗最高达700W。性能方面,FP64/FP3260TFlops(每秒60万亿次),FP162000TFlops(每秒2000万亿次),TF321000TFlops(每秒1000万亿次),都三倍于A100,FP84000TFlops(每秒4000万亿次),六倍于A100。...PC版:https://www.cnbeta.com.tw/articles/soft/1367365.htm手机版:https://m.cnbeta.com.tw/view/1367365.htm

封面图片

Intel GPU号称领先NVIDIA 2.5倍?细看尴尬了

IntelGPU号称领先NVIDIA2.5倍?细看尴尬了HotChips34大会史昂,Intel又公布了PonteVecchioGPU高性能计算卡的更多细节,包括性能数据。PonteVecchioGPU基于全新的XeHPC高性能计算架构,使用5种不同制造工艺(Intel7和台积电N7/N5等)、多种封装技术,整合了多达47个不同计算模块,晶体管数量超1000亿个。它一个模块有128个Xe核心、128个光追单元、64MB一级缓存、408MB二级缓存、128GBHBM2e高带宽内存,支持PCIe5.0,可以四路甚至八路并联。Intel给出的最新数据声称,PonteVecchioFP32单精度、FP64双精度性能可达52TFlops,TF3.2浮点性能可达419TFlops,BF16、PF16浮点性能可达839TFlops,INT8整数性能则可达1678Tops。DataParallelC++(DPC++)测试项目中,PonteVecchio的性能相比于NVIDIAA100可以领先1.4-2.5倍。另外,ExaSMROpenMC计算性能可领先2倍,NekRS性能则领先0.3-1.7倍。当然,NVIDIA新一代的H100都已经发布了……PonteVecchio的使命是将联合下一代可扩展至强SapphireRapids,用于美国的首批三台百亿亿次超算之一Aorura,但不幸的是,SapphireRapids一再推迟,预计明年第二季度才能发布,PonteVecchio也一直没有量产上市。相比之下,AMD三代霄龙处理器、InstinctMI250X加速卡组成的Frontier已经上线运行,并以1.6EFlops的性能,成为当今(公开的)超算之王。PC版:https://www.cnbeta.com/articles/soft/1307421.htm手机版:https://m.cnbeta.com/view/1307421.htm

封面图片

特斯拉自研7nm超级芯片 可取代NVIDIA安培GPU

特斯拉自研7nm超级芯片可取代NVIDIA安培GPU特斯拉的自动驾驶技术开发走在前列,无疑,这背后有一套规模庞大的超级计算机用作开发训练平台。日前,特斯拉工程总经理TimZaman分享了特斯拉这套人工智能训练系统的最新规格,一年前配备了5760颗NVIDIAA100GPU,如今增加了1600颗,达到7360,幅度是28%。A100也就是完整的安培大核心,集成80GBHBM2e显存、拥有2TB/s带宽、功耗也是高达400W。按照Zaman的说法,特斯拉这套超算是全球GPU规模第7大的服务器运算平台。当然,马斯克并不满足于从NVIDIA买芯片,实际上特斯拉正在研制Dojo超算,GPU芯片也是自研的D1,台积电7nm工艺。D1是一款半定制ASIC,服务的就是人工智能推理运算训练,单精度浮点性能高达22.6T,集成500亿晶体管,功耗同样高达400W。PC版:https://www.cnbeta.com/articles/soft/1306045.htm手机版:https://m.cnbeta.com/view/1306045.htm

封面图片

老黄深夜炸场:AIGC进入iPhone时刻 神秘显卡胜过A100

老黄深夜炸场:AIGC进入iPhone时刻神秘显卡胜过A100而英伟达也借此将过去这数十年的所有创新,比如人工智能、虚拟世界、加速、模拟、协作等等,全部融合到了一起。在这个时代里,或许正如老黄的经典名言:“买得越多,省得越多!”英伟达最强AI超算再升级在5年前的SIGGRAPH上,英伟达通过将人工智能和实时光线追踪技术引入GPU,重新定义了计算机图形学。老黄表示:“当我们通过AI重新定义计算机图形学时,我们也在为AI全面重新定义GPU。”随之而来的,便是日益强大的计算系统。比如,集成了8个GPU并拥有1万亿个晶体管的HGXH100。就在今天,老黄再次让AI计算上了一个台阶——除了为GH200配备更加先进的HBM3e内存外,下一代GH200GraceHopper超级芯片平台还将具有连接多个GPU的能力,从而实现卓越的性能和易于扩展的服务器设计。而这个拥有多种配置的全新平台,将能够处理世界上最复杂的生成式工作负载,包括大语言模型、推荐系统和向量数据库等等。比如,双核心方案就包括一台配备了144个ArmNeoverse核心并搭载了282GBHBM3e内存的服务器,可以提供8petaflops的AI算力。其中,全新的HBM3e内存要比当前的HBM3快了50%。而10TB/sec的组合带宽,也使得新平台可以运行比上一版本大3.5倍的模型,同时通过3倍更快的内存带宽提高性能。据悉,该产品预计将在2024年第二季度推出。RTX工作站:绝佳刀法,4款显卡齐上新这次老黄的桌面AI工作站GPU系列也全面上新,一口气推出了4款新品:RTX6000、RTX5000、RTX4500和RTX4000。如果H100以及配套的产品线展示的是英伟达的GPU性能的天际线的话,针对桌面和数据中心推出的这几款产品,则是老黄对成本敏感客户秀出自己“刀法”的绝佳机会。在发布这新GPU的时候,现场还出现了一个意外的小花絮。老黄从后台拿出第一块GPU的时候,不知道是自己不小心,还是因为其他工作人员的失误,显卡镜面面板上占了指纹。老黄立马就发现了指纹,觉得可能是自己搞砸了,就很不好意思的和现场观众对不起,说这次产品发布可能是有史以来最差的一次。看来就算开发布会熟练如老黄,没准备好也是会翻船的。可爱的老黄惹得在场观众不断发笑。言归正传,作为旗舰级专业卡,RTX6000的性能参数毫无疑问是4款新品中最强的。凭借着48GB的显存,18176个CUDA核心,568个Tensor核心,142个RT核心,和高达960GB/s的带宽一骑绝尘。RTX5000配备了32GB显存,12800个CUDA核心,400个Tensor核心,100个RT核心,300W的功耗。RTX4500配备了24GB显存,7680个CUDA核心,240个Tensor核心,60个RT核心。RTX4000配备了20GB显存,6144个CUDA核心,192个Tensor核心,48个RT核心。基于新发布的4张新的GPU,针对企业客户,老黄还准备一套一站式解决方案——RTXWorkstation。支持最多4张RTX6000GPU,可以在15小时内完成860Mtoken的GPT3-40B的微调。StableDiffusionXL每分钟可以生成40张图片,比4090快5倍。OVX服务器:搭载L40S,性能小胜A100而专为搭建数据中心而设计的L40SGPU,性能就更加爆炸了。基于AdaLovelace架构的L40S,配备有48GB的GDDR6显存和846GB/s的带宽。在第四代Tensor核心和FP8Transformer引擎的加持下,可以提供超过1.45petaflops的张量处理能力。对于算力要求较高的任务,L40S的18,176个CUDA核心可以提供近5倍于A100的单精度浮点(FP32)性能,从而加速复杂计算和数据密集型分析。此外,为了支持如实时渲染、产品设计和3D内容创建等专业视觉处理工作,英伟达还为L40S还配备了142个第三代RT核心,可以提供212teraflops的光线追踪性能。功耗同时也达到了350瓦。对于具有数十亿参数和多种模态的生成式AI工作负载,L40S相较于老前辈A100可实现高达1.2倍的推理性能提升,以及高达1.7倍的训练性能提升。在L40SGPU的加持下,老黄又针对数据中心市场,推出了最多可搭载8张L40S的OVX服务器。对于拥有8.6亿token的GPT3-40B模型,OVX服务器只需7个小时就能完成微调。对于StableDiffusionXL模型,则可实现每分钟80张的图像生成。AIWorkbench:加速定制生成式AI应用除了各种强大的硬件之外,老黄还重磅发布了全新的NVIDIAAIWorkbench来帮助开发和部署生成式AI模型。概括来说,AIWorkbench为开发者提供了一个统一且易于使用的工具包,能够快速在PC或工作站上创建、测试和微调模型,并无缝扩展到几乎任何数据中心、公有云或NVIDIADGXCloud上。具体而言,AIWorkbench的优势如下:-易于使用AIWorkbench通过提供一个单一的平台来管理数据、模型和计算资源,简化了开发过程,支持跨机器和环境的协作。-集成AI开发工具和存储库AIWorkbench与GitHub、NVIDIANGC、HuggingFace等服务集成,开发者可以使用JupyterLab和VSCode等工具,并在不同平台和基础设施上进行开发。-增强协作AIWorkbench采用的是以项目为中心的架构,便于开发者进行自动化版本控制、容器管理和处理机密信息等复杂任务,同时也可以支持团队之间的协作。-访问加速计算资源AIWorkbench部署采用客户端-服务器模式。团队可以现在在本地计算资源上进行开发,然后在训练任务变得更大时切换到数据中心或云资源上。StableDiffusionXL自定义图像生成首先,打开AIWorkbench并克隆一个存储库。接下来,在JupyterNotebook中,从HuggingFace加载了预训练的StableDiffusionXL模型,并要求它生成一个“太空中的ToyJensen”。然而,根据输出的图像可以看出,模型并不知道ToyJensen是谁。这时就可以通过DreamBooth,并使用8张ToyJensen的图片对模型进行微调。最后,在用户界面上重新运行推理。现在,知道了ToyJensen的模型,就可以生成切合需求的图像了。HuggingFace一键访问最强算力作为最受AI开发者喜爱的平台之一,拥有200万用户、超25万个模型,以及5万个数据集的HuggingFace,这次也与英伟达成功达成了合作。现在,开发者可以通过HuggingFace平台直接获得英伟达DGXCloudAI超算的加持,从而更加高效地完成AI模型的训练和微调。其中,每个DGXCloud实例都配备有8个H100或A10080GBGPU,每个节点共有640GB显存,可满足顶级AI工作负载的性能要求。此外,作为合作的一部分,HuggingFace还将提供一个名为“TrainingClusterasaService”的全新服务,从而简化企业创建新的和定制的生成式AI模型的过程。老黄激动得表示:“HuggingFace和英伟达将世界上最大的AI社区与全球领先的云AI计算平台连接在了一起。用户只需点击一下,即可访问NVIDIA最强的AI算力。”AIEnterprise4.0:定制企业级生成式AI为了进一步加速生成式AI的应用,英伟达也将其企业级平台AIEnterprise升级到了4.0版本。目前,AIEnterprise4.0不仅可以为企业提供生成式AI所需的工具,同时还提供了生产部署所需的安全性和API稳定性。-NVIDIANeMo一个用于构建、定制和部署大语言模型的云原生框架。借助NeMo,英伟达AIEnterprise可以为创建和定制大语言模型应用提供了端到端的支持。-NVIDIATriton管理服务帮助企业进行自动化和优化生产部署,使其在Kubernetes中能够自动部署多个推理服务器实例,并通过模型协调实现可扩展A的高效运行。-NVIDIABaseCommandManagerEssentials集群管理软件帮助企业在数据中心、多云和混合云环境中最大化AI服务器的性能和利用率。除了英伟达自己,AIEnterprise4.0还将集成到给其他的合作伙伴,比如GoogleCloud和MicrosoftAzure等。此外,MLOps提供商,包括AzureMachineLearning、ClearML、DominoDataLab、Run:AI和Weights&Biases,也将与英伟达AI平台进行无缝集成,从而简化生成式AI模型的开发。Omniverse:在元宇宙中加入大语言模型最后,是英伟达Omniverse平台的更新。在接入了OpenUSD和AIGC...PC版:https://www.cnbeta.com.tw/articles/soft/1375895.htm手机版:https://m.cnbeta.com.tw/view/1375895.htm

封面图片

NVIDIA RTX 5000 Ada工作站显卡现身国内电商:32GB显存 价格35999元

NVIDIARTX5000Ada工作站显卡现身国内电商:32GB显存价格35999元显存为256-bit32GB,频率18GHz,578GB/s的带宽,功耗仅有250W。据悉,RTX5000Ada的浮点性能达到了65.3TFlops,运算的速度是上一代产品的2倍,第三代RT核心比上一代在光线追踪性能2倍,搭载的DLSS3可借助AI的力量,为实时图形带来更高的真实感和交互性。第四代张量核心上一代在AI训练性能提高了2倍,并且支持了FP8数据格式加速。在加速渲染、AI、图形和计算工作负载性能方面,RTX5000Ada可以带来卓越的性能表现。...PC版:https://www.cnbeta.com.tw/articles/soft/1387145.htm手机版:https://m.cnbeta.com.tw/view/1387145.htm

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人