老黄发布最强AIGC芯片“生成式AI的iPhone时刻已来”

老黄发布最强AIGC芯片“生成式AI的iPhone时刻已来”同时,英伟达还宣布了和HuggingFace的合作——以后在HuggingFace平台上,不需要再下载ML模型自己运行,只需要几步简单操作,就能在笔记本上运行大模型,有Colab内味了(就是不知道有没有免费版)。至于软件更新,字里行间也全是AI。不仅在Omniverse平台中集成了一系列时下热门的AI工具,新的软件有不少也是基于大模型打造,像ChatUSD就能帮开发者们写代码。这也是时隔五年,老黄再次登上SIGGRAPH的舞台。在会上,他自信满满地宣布:生成式人工智能的“iPhone时刻”,已经来临。有网友看完发布会后感慨:英伟达在AI硬件这方面,已经无人能及了。新芯片组成的“最强超算”来袭这场发布会中最先抛出,也是最引人瞩目的,非“最强超算”莫属。这台超级计算机由256块DGXGH200GraceHopper(简称DGXGH200)连接而成。用老黄的话,这个“庞然大物”就是为AIGC时代量身打造的。它的算力和内存容量分别达到了1E(10^15)FLOPS和144TB。下面这张图展示了它的真实大小(中间的黑影是老黄)。不仅是性能优异,对比发现,性价比简直完爆CPU。同样花1亿美元,拿来买CPU和GPU分别能得到什么?CPU的话,可以买8800个x86架构的产品。这近九千块CPU加起来,只能带动一个LLaMA2、SDXL这样规模的AI程序。功率嘛……是5兆瓦,也就是每小时5000度电。如果换成GPU的话,则是2500块DGXGH200。能带动的近似规模的AI程序一下增加到了12个,功率却降低到了3兆瓦。平均到单个程序上,需要210块DGXGH200,价格是800万美元,功率则为0.26兆瓦。而组成这个“最强超算”的DGXGH200,同样是王者级别,被称为“最强生成式AI处理器”。DGXGH200由GraceCPU和HopperGPU组成。其中GraceCPU包含72核心,而后者拥有4P(10^12)FLOPS的算力和500GB的LPDDR5X。此外,DGXGH200中还加入了海力士的“最快内存”HBM3e。它的容量为141GB,带宽则高达每秒5TB,分别是H100的1.7倍和1.55倍。(好家伙,H100都只配当baseline了)在DGXGH200中,CPU和GPU之间的连接速度是第五代PCIe的7倍。而从单块DGXGH200到整个超级计算机的过程,主打的就是一个“叠”。这要得益于它的多GPU高速连接能力。双联体的DGXGH200,性能几乎没有损失,直接就是单体的两倍。将双联体的DGXGH200与BlueField-3DPU和ConnectX-7网卡,就组成了一个“计算盒”。通过NVLink,8个这样的“计算盒”高速连接,就得到了DGX构建块,总内存达到了4.6TB。这样的构建块可以合二为一形成新的计算盒,并最终扩展成256GPU的工作集群Superpod。NVLink的高速连接能力,让这256块GPU“就像是一块一样”工作。至此,显卡超算的规模已经达到了本节开头老黄所展示的水平。但这还没有结束——Superpod之间还能继续连接。在高速低延时的Quantum-2Infiniband平台帮助下,超算的规模可以接着扩展……讲到这里,老黄还打趣道:如果哪天你从(某电商平台)上买显卡的时候发现了它,千万不要觉得惊讶!总之,根据不同需要,利用DGXGH200将能构建出不同规模的、适应AIGC时代的超级计算机。据预计,DGXGH200将于明(2024)年第二季度投产。还发了3个RTX新专业显卡除了“最强生成式AI处理器”以外,英伟达这次也推出了3款船新的工作站显卡:RTX5000、RTX4500和RTX4000。这几款显卡均基于AdaLovelace架构设计,目前参数已经同步英伟达官网:当然,专业显卡售价也更贵。其中RTX5000售价达到4000美元(约合人民币2.87万元),RTX4500售价2250美元(约1.6万元),RTX4000售价1250美元(约8987元)。老黄也在发布RTX显卡时,再次说出那句经典名言:买得越多,省得越多(themoreyoubuy,themoreyousave)。至于去年9月发布的RTX6000Ada显卡,在这次大会上也推出了一个新的工作站设计:4块叠起来,搞个顶级“叠叠乐”。这样设计的单个RTX工作站,单个可以提供5828TFLOPS的AI性能,以及192GB的GPU内存。除此之外,老黄还在这次大会上宣布了一个搭载L40SAdaGPU的新款OVX服务器,数据中心专用。每台服务器搭载8块L40SAdaGPU,每块L40S包含高达18176个CUDA核心,可以提供提供近5倍于A100的单精度浮点(FP32)性能。相比A100,L40S微调(fine-tune)大模型的性能提升了大约1.7倍。(没错,A100已经被老黄用来给新硬件当对比了)具体来说,在这个OVX服务器上微调一个860M参数的大模型,现在只需要7小时就可以完成;400亿参数的GPT-3大模型,更是只需要15个小时就能微调完成。在渲染上,L40S性能也不错,配备了142个第三代RT核心,可以提供212teraflops的光线追踪性能。预计L40S将于今年秋季上市。AIGC版Colab来了,笔记本跑大模型不仅是硬件上接连抛出一系列“重磅炸弹”,软件方面英伟达也发布了多款新产品。首先是和HuggingFace合作,把NVIDIADGXCloudAI整合到其中。在HF的页面中,一键就能让模型在云上调整运行。英伟达科学家范麟熙(JimFan)激动地宣布了这一消息,还透露其中使用的每个节点都是8个H100或A100。除了与HF合作,英伟达还推出了自己的Workbench平台。通过连接云端服务,用笔记本电脑就能跑大模型。现场还播放了通过Workbench跑SDXL的演示视频。在Jupyter中,演示者让SDXL画一个“玩具老黄”。此时的SDXL还不知道“玩具老黄”是个啥玩意儿。于是演示者现场用8张图对模型进行了微调。微调后重新绘制的作品,是不是有那味了?除了上述两款大模型运行工具,英伟达还推出了最新版的企业软件平台NVIDIAAIenterprise4.0。软件包的数量达到了4500个,还有数以万计的相关依赖,而且安全可靠。Google、微软、亚马逊、甲骨文等英伟达合作方都会在自己的云平台中集成这项服务。“人类将成为一门新的编程语言”除此之外,英伟达的计算机图形与仿真模拟平台Omniverse,也宣布了一系列新进展。一方面,更多AI工具可以直接在Omniverse里面调用了。包括对话式AI角色创建工具Convai、高保真AI动捕工具MoveAI、AI低成本制作CG工具CGWonderDynamics在内,一系列流行AI工具,现在都已经通过OpenUSD集成到Omniverse中。就连Adobe,也计划将AdobeFirefly作为API,提供在Omniverse中(就是估计会收费)。另一方面,英伟达还将生成式AI技术和OpenUSD结合,推出了一些好用的AI工具。例如ChatUSD,就是一个基于NVIDIANemo框架大模型Copilot,不仅可以回答开发者有关USD的问题,还能帮忙生成Python-USD代码。又例如DeepSearch,也是一个基于大模型的新工具,基于文本或图像输入,可以快速对数据库进行3D语义搜索。在这次大会上,老黄先是回顾了自己过去所做的“正确决定”——用AI重塑CG,为AI重新发明GPU。随后,他对未来AI行业的发展做了大胆的展望:未来,几乎所有事物的前方都会有一个大语言模型。“人”,将成为一种新的编程语言。以工厂为例,老黄认为,未来的工厂将会由软件和机器人来“主宰”。像汽车这样的产品,本身就是机器人,所以生产汽车的工厂,将会呈现出机器人制造机器人的场面。看来,乘大模型东风迅速崛起的英伟达,这次是真的要ALLIN生成式AI了。...PC版:https://www.cnbeta.com.tw/articles/soft/1375941.htm手机版:https://m.cnbeta.com.tw/view/1375941.htm

相关推荐

封面图片

老黄深夜炸场:AIGC进入iPhone时刻 神秘显卡胜过A100

老黄深夜炸场:AIGC进入iPhone时刻神秘显卡胜过A100而英伟达也借此将过去这数十年的所有创新,比如人工智能、虚拟世界、加速、模拟、协作等等,全部融合到了一起。在这个时代里,或许正如老黄的经典名言:“买得越多,省得越多!”英伟达最强AI超算再升级在5年前的SIGGRAPH上,英伟达通过将人工智能和实时光线追踪技术引入GPU,重新定义了计算机图形学。老黄表示:“当我们通过AI重新定义计算机图形学时,我们也在为AI全面重新定义GPU。”随之而来的,便是日益强大的计算系统。比如,集成了8个GPU并拥有1万亿个晶体管的HGXH100。就在今天,老黄再次让AI计算上了一个台阶——除了为GH200配备更加先进的HBM3e内存外,下一代GH200GraceHopper超级芯片平台还将具有连接多个GPU的能力,从而实现卓越的性能和易于扩展的服务器设计。而这个拥有多种配置的全新平台,将能够处理世界上最复杂的生成式工作负载,包括大语言模型、推荐系统和向量数据库等等。比如,双核心方案就包括一台配备了144个ArmNeoverse核心并搭载了282GBHBM3e内存的服务器,可以提供8petaflops的AI算力。其中,全新的HBM3e内存要比当前的HBM3快了50%。而10TB/sec的组合带宽,也使得新平台可以运行比上一版本大3.5倍的模型,同时通过3倍更快的内存带宽提高性能。据悉,该产品预计将在2024年第二季度推出。RTX工作站:绝佳刀法,4款显卡齐上新这次老黄的桌面AI工作站GPU系列也全面上新,一口气推出了4款新品:RTX6000、RTX5000、RTX4500和RTX4000。如果H100以及配套的产品线展示的是英伟达的GPU性能的天际线的话,针对桌面和数据中心推出的这几款产品,则是老黄对成本敏感客户秀出自己“刀法”的绝佳机会。在发布这新GPU的时候,现场还出现了一个意外的小花絮。老黄从后台拿出第一块GPU的时候,不知道是自己不小心,还是因为其他工作人员的失误,显卡镜面面板上占了指纹。老黄立马就发现了指纹,觉得可能是自己搞砸了,就很不好意思的和现场观众对不起,说这次产品发布可能是有史以来最差的一次。看来就算开发布会熟练如老黄,没准备好也是会翻船的。可爱的老黄惹得在场观众不断发笑。言归正传,作为旗舰级专业卡,RTX6000的性能参数毫无疑问是4款新品中最强的。凭借着48GB的显存,18176个CUDA核心,568个Tensor核心,142个RT核心,和高达960GB/s的带宽一骑绝尘。RTX5000配备了32GB显存,12800个CUDA核心,400个Tensor核心,100个RT核心,300W的功耗。RTX4500配备了24GB显存,7680个CUDA核心,240个Tensor核心,60个RT核心。RTX4000配备了20GB显存,6144个CUDA核心,192个Tensor核心,48个RT核心。基于新发布的4张新的GPU,针对企业客户,老黄还准备一套一站式解决方案——RTXWorkstation。支持最多4张RTX6000GPU,可以在15小时内完成860Mtoken的GPT3-40B的微调。StableDiffusionXL每分钟可以生成40张图片,比4090快5倍。OVX服务器:搭载L40S,性能小胜A100而专为搭建数据中心而设计的L40SGPU,性能就更加爆炸了。基于AdaLovelace架构的L40S,配备有48GB的GDDR6显存和846GB/s的带宽。在第四代Tensor核心和FP8Transformer引擎的加持下,可以提供超过1.45petaflops的张量处理能力。对于算力要求较高的任务,L40S的18,176个CUDA核心可以提供近5倍于A100的单精度浮点(FP32)性能,从而加速复杂计算和数据密集型分析。此外,为了支持如实时渲染、产品设计和3D内容创建等专业视觉处理工作,英伟达还为L40S还配备了142个第三代RT核心,可以提供212teraflops的光线追踪性能。功耗同时也达到了350瓦。对于具有数十亿参数和多种模态的生成式AI工作负载,L40S相较于老前辈A100可实现高达1.2倍的推理性能提升,以及高达1.7倍的训练性能提升。在L40SGPU的加持下,老黄又针对数据中心市场,推出了最多可搭载8张L40S的OVX服务器。对于拥有8.6亿token的GPT3-40B模型,OVX服务器只需7个小时就能完成微调。对于StableDiffusionXL模型,则可实现每分钟80张的图像生成。AIWorkbench:加速定制生成式AI应用除了各种强大的硬件之外,老黄还重磅发布了全新的NVIDIAAIWorkbench来帮助开发和部署生成式AI模型。概括来说,AIWorkbench为开发者提供了一个统一且易于使用的工具包,能够快速在PC或工作站上创建、测试和微调模型,并无缝扩展到几乎任何数据中心、公有云或NVIDIADGXCloud上。具体而言,AIWorkbench的优势如下:-易于使用AIWorkbench通过提供一个单一的平台来管理数据、模型和计算资源,简化了开发过程,支持跨机器和环境的协作。-集成AI开发工具和存储库AIWorkbench与GitHub、NVIDIANGC、HuggingFace等服务集成,开发者可以使用JupyterLab和VSCode等工具,并在不同平台和基础设施上进行开发。-增强协作AIWorkbench采用的是以项目为中心的架构,便于开发者进行自动化版本控制、容器管理和处理机密信息等复杂任务,同时也可以支持团队之间的协作。-访问加速计算资源AIWorkbench部署采用客户端-服务器模式。团队可以现在在本地计算资源上进行开发,然后在训练任务变得更大时切换到数据中心或云资源上。StableDiffusionXL自定义图像生成首先,打开AIWorkbench并克隆一个存储库。接下来,在JupyterNotebook中,从HuggingFace加载了预训练的StableDiffusionXL模型,并要求它生成一个“太空中的ToyJensen”。然而,根据输出的图像可以看出,模型并不知道ToyJensen是谁。这时就可以通过DreamBooth,并使用8张ToyJensen的图片对模型进行微调。最后,在用户界面上重新运行推理。现在,知道了ToyJensen的模型,就可以生成切合需求的图像了。HuggingFace一键访问最强算力作为最受AI开发者喜爱的平台之一,拥有200万用户、超25万个模型,以及5万个数据集的HuggingFace,这次也与英伟达成功达成了合作。现在,开发者可以通过HuggingFace平台直接获得英伟达DGXCloudAI超算的加持,从而更加高效地完成AI模型的训练和微调。其中,每个DGXCloud实例都配备有8个H100或A10080GBGPU,每个节点共有640GB显存,可满足顶级AI工作负载的性能要求。此外,作为合作的一部分,HuggingFace还将提供一个名为“TrainingClusterasaService”的全新服务,从而简化企业创建新的和定制的生成式AI模型的过程。老黄激动得表示:“HuggingFace和英伟达将世界上最大的AI社区与全球领先的云AI计算平台连接在了一起。用户只需点击一下,即可访问NVIDIA最强的AI算力。”AIEnterprise4.0:定制企业级生成式AI为了进一步加速生成式AI的应用,英伟达也将其企业级平台AIEnterprise升级到了4.0版本。目前,AIEnterprise4.0不仅可以为企业提供生成式AI所需的工具,同时还提供了生产部署所需的安全性和API稳定性。-NVIDIANeMo一个用于构建、定制和部署大语言模型的云原生框架。借助NeMo,英伟达AIEnterprise可以为创建和定制大语言模型应用提供了端到端的支持。-NVIDIATriton管理服务帮助企业进行自动化和优化生产部署,使其在Kubernetes中能够自动部署多个推理服务器实例,并通过模型协调实现可扩展A的高效运行。-NVIDIABaseCommandManagerEssentials集群管理软件帮助企业在数据中心、多云和混合云环境中最大化AI服务器的性能和利用率。除了英伟达自己,AIEnterprise4.0还将集成到给其他的合作伙伴,比如GoogleCloud和MicrosoftAzure等。此外,MLOps提供商,包括AzureMachineLearning、ClearML、DominoDataLab、Run:AI和Weights&Biases,也将与英伟达AI平台进行无缝集成,从而简化生成式AI模型的开发。Omniverse:在元宇宙中加入大语言模型最后,是英伟达Omniverse平台的更新。在接入了OpenUSD和AIGC...PC版:https://www.cnbeta.com.tw/articles/soft/1375895.htm手机版:https://m.cnbeta.com.tw/view/1375895.htm

封面图片

老黄深夜炸场:世界最强AI芯片H200震撼发布 性能飙升90%

老黄深夜炸场:世界最强AI芯片H200震撼发布性能飙升90%全世界的AI公司都陷入算力荒,英伟达的GPU已经千金难求。英伟达此前也表示,两年一发布的架构节奏将转变为一年一发布。就在英伟达宣布这一消息之际,AI公司们正为寻找更多H100而焦头烂额。英伟达的高端芯片价值连城,已经成为贷款的抵押品。谁拥有H100,是硅谷最引人注目的顶级八卦至于H200系统,英伟达表示预计将于明年二季度上市。同在明年,英伟达还会发布基于Blackwell架构的B100,并计划在2024年将H100的产量增加两倍,目标是生产200多万块H100。而在发布会上,英伟达甚至全程没有提任何竞争对手,只是不断强调“英伟达的AI超级计算平台,能够更快地解决世界上一些最重要的挑战。”随着生成式AI的大爆炸,需求只会更大,而且,这还没算上H200呢。赢麻了,老黄真的赢麻了!141GB超大显存,性能直接翻倍!H200,将为全球领先的AI计算平台增添动力。它基于Hopper架构,配备英伟达H200TensorCoreGPU和先进的显存,因此可以为生成式AI和高性能计算工作负载处理海量数据。英伟达H200是首款采用HBM3e的GPU,拥有高达141GB的显存。与A100相比,H200的容量几乎翻了一番,带宽也增加了2.4倍。与H100相比,H200的带宽则从3.35TB/s增加到了4.8TB/s。英伟达大规模与高性能计算副总裁IanBuck表示——要利用生成式人工智能和高性能计算应用创造智能,必须使用大型、快速的GPU显存,来高速高效地处理海量数据。借助H200,业界领先的端到端人工智能超算平台的速度会变得更快,一些世界上最重要的挑战,都可以被解决。Llama2推理速度提升近100%跟前代架构相比,Hopper架构已经实现了前所未有的性能飞跃,而H100持续的升级,和TensorRT-LLM强大的开源库,都在不断提高性能标准。H200的发布,让性能飞跃又升了一级,直接让Llama270B模型的推理速度比H100提高近一倍!H200基于与H100相同的Hopper架构。这就意味着,除了新的显存功能外,H200还具有与H100相同的功能,例如TransformerEngine,它可以加速基于Transformer架构的LLM和其他深度学习模型。HGXH200采用英伟达NVLink和NVSwitch高速互连技术,8路HGXH200可提供超过32Petaflops的FP8深度学习计算能力和1.1TB的超高显存带宽。当用H200代替H100,与英伟达GraceCPU搭配使用时,就组成了性能更加强劲的GH200GraceHopper超级芯片——专为大型HPC和AI应用而设计的计算模块。下面我们就来具体看看,相较于H100,H200的性能提升到底体现在哪些地方。首先,H200的性能提升最主要体现在大模型的推理性能表现上。如上所说,在处理Llama2等大语言模型时,H200的推理速度比H100提高了接近1倍。因为计算核心更新幅度不大,如果以训练175B大小的GPT-3为例,性能提升大概在10%左右。显存带宽对于高性能计算(HPC)应用程序至关重要,因为它可以实现更快的数据传输,减少复杂任务的处理瓶颈。对于模拟、科学研究和人工智能等显存密集型HPC应用,H200更高的显存带宽可确保高效地访问和操作数据,与CPU相比,获得结果的时间最多可加快110倍。相较于H100,H200在处理高性能计算的应用程序上也有20%以上的提升。而对于用户来说非常重要的推理能耗,H200相比H100直接腰斩。这样,H200能大幅降低用户的使用成本,继续让用户“买的越多,省的越多”!上个月,外媒SemiAnalysis曾曝出一份英伟达未来几年的硬件路线图,包括万众瞩目的H200、B100和“X100”GPU。而英伟达官方,也公布了官方的产品路线图,将使用同一构架设计三款芯片,在明年和后年会继续推出B100和X100。B100,性能已经望不到头了这次,英伟达更是在官方公告中宣布了全新的H200和B100,将过去数据中心芯片两年一更新的速率直接翻倍。以推理1750亿参数的GPT-3为例,今年刚发布的H100是前代A100性能的11倍,明年即将上市的H200相对于H100则有超过60%的提升,而再之后的B100,性能更是望不到头。至此,H100也成为了目前在位最短的“旗舰级”GPU。如果说H100现在就是科技行业的“黄金”,那么英伟达又成功制造了“铂金”和“钻石”。H200加持,新一代AI超算中心大批来袭云服务方面,除了英伟达自己投资的CoreWeave、Lambda和Vultr之外,亚马逊云科技、Google云、微软Azure和甲骨文云基础设施,都将成为首批部署基于H200实例的供应商。此外,在新的H200加持之下,GH200超级芯片也将为全球各地的超级计算中心提供总计约200Exaflops的AI算力,用以推动科学创新。在SC23大会上,多家顶级超算中心纷纷宣布,即将使用GH200系统构建自己的超级计算机。德国尤里希超级计算中心将在超算JUPITER中使用GH200超级芯片。这台超级计算机将成为欧洲第一台超大规模超级计算机,是欧洲高性能计算联合项目(EuroHPCJointUndertaking)的一部分。Jupiter超级计算机基于Eviden的BullSequanaXH3000,采用全液冷架构。它总共拥有24000个英伟达GH200GraceHopper超级芯片,通过Quantum-2Infiniband互联。每个GraceCPU包含288个Neoverse内核,Jupiter的CPU就有近700万个ARM核心。它能提供93Exaflops的低精度AI算力和1Exaflop的高精度(FP64)算力。这台超级计算机预计将于2024年安装完毕。由筑波大学和东京大学共同成立的日本先进高性能计算联合中心,将在下一代超级计算机中采用英伟达GH200GraceHopper超级芯片构建。作为世界最大超算中心之一的德克萨斯高级计算中心,也将采用英伟达的GH200构建超级计算机Vista。伊利诺伊大学香槟分校的美国国家超级计算应用中心,将利用英伟达GH200超级芯片来构建他们的超算DeltaAI,把AI计算能力提高两倍。此外,布里斯托大学将在英国政府的资助下,负责建造英国最强大的超级计算机Isambard-AI——将配备5000多颗英伟达GH200超级芯片,提供21Exaflops的AI计算能力。英伟达、AMD、英特尔:三巨头决战AI芯片GPU竞赛,也进入了白热化。面对H200,而老对手AMD的计划是,利用即将推出的大杀器——InstinctMI300X来提升显存性能。MI300X将配备192GB的HBM3和5.2TB/s的显存带宽,这将使其在容量和带宽上远超H200。而英特尔也摩拳擦掌,计划提升GaudiAI芯片的HBM容量,并表示明年推出的第三代GaudiAI芯片将从上一代的96GBHBM2e增加到144GB。英特尔Max系列目前的HBM2容量最高为128GB,英特尔计划在未来几代产品中,还要增加Max系列芯片的容量。H200价格未知所以,H200卖多少钱?英伟达暂时还未公布。要知道,一块H100的售价,在25000美元到40000美元之间。训练AI模型,至少需要数千块。此前,AI社区曾广为流传这张图片《我们需要多少个GPU》。GPT-4大约是在10000-25000块A100上训练的;Meta需要大约21000块A100;StabilityAI用了大概5000块A100;Falcon-40B的训练,用了384块A100。根据马斯克的说法,GPT-5可能需要30000-50000块H100。摩根士丹利的说法是25000个GPU。SamAltman否认了在训练GPT-5,但却提过“OpenAI的GPU严重短缺,使用我们产品的人越少越好”。我们能知道的是,等到明年第二季度H200上市,届时必将引发新的风暴。...PC版:https://www.cnbeta.com.tw/articles/soft/1396699.htm手机版:https://m.cnbeta.com.tw/view/1396699.htm

封面图片

英伟达推出最强 AI 芯片 GB200

英伟达推出最强AI芯片GB200英伟达CEO黄仁勋在GTC宣布推出新一代GPUBlackwell,第一款Blackwell芯片名为GB200,将于今年晚些时候上市。Blackwell拥有2080亿个晶体管,采用台积电4nm制程。前一代GPU“Hopper”H100采用4nm工艺,集成晶体管800亿。黄仁勋表示:“Hopper很棒,但我们需要更大的GPU。Blackwell不是一个芯片,它是一个平台的名字。”英伟达表示,基于Blackwell的处理器,如GB200,为人工智能公司提供了巨大的性能升级,其AI性能为每秒20千万亿次浮点运算,而H100为每秒4千万亿次浮点运算。该系统可以部署一个27万亿参数的模型。据称GPT-4使用了约1.76万亿个参数来训练系统。

封面图片

GTC 2024硬件一览:史上最强AI芯片GB200发布 高达2080亿晶体管

GTC2024硬件一览:史上最强AI芯片GB200发布高达2080亿晶体管今年的GTC峰会主题完全围绕AI展开,2个小时的时间,老黄又一次带来了AI的变革时刻。当然除了老黄的开幕演讲外,后面还有900多场鼓舞人心的会议在等着你。同时此次GTC大会还吸引了超过200家展商,汇聚了数千名不同行业领域的从业人员一同参与。丰富多彩的技术分享、越见非凡的创新技术,称它是AI的盛会都不为过。想必你也好奇老黄究竟在GTC上带来了什么惊喜吧,别着急,本篇带你一睹GTC峰会上的那些硬件产品。见证AI的变革时刻峰会伊始,我们熟悉的皮衣刀客准时出场。一上来就直奔今天的主题——AI,并表示“加速式计算机的生产力已经到达了一个转折点,生成式AI正在加速发展,而我们需要以一种全新的方式进行计算,才能够进一步提高计算机生产力。”并且还贴心的展示了其自己亲手画出的关于计算机生产力的演变流程,最后一项正是今天的重点!改变形态的BlackwellGPU没错,老黄在GTC宣布推出新一代GPUBlackwell。这里先介绍一下Blackwell架构,此前NVIDIA推出的显卡一般是两种架构,其中游戏显卡例如我们熟悉的RTX40系则是AdaLovelace架构,而面向AI、大数据等应用的专业级显卡则采用Hopper架构。而老黄在大会上则表示“Blackwell不是一个芯片,它是一个平台的名字。”意思是Blackwell架构将同时用于以上两种类型的产品。借助这一架构,NVIDIA将推出涵盖多个应用领域的显卡,即RTX50系显卡也会是这个架构。并且从老黄手上的芯片可以看出,新的BlackwellGPU的体积明显比上代HopperGPU要更大一些。至于这个架构名字的由来,则要追溯到美国科学院首位黑人院士、加州大学伯克利分校首位黑人终身教授戴维·布莱克维尔(DavidBlackwell),它是著名的数学家、统计学家,不过很可惜的是这位教授在2010年因病去世。恐怖的2080亿晶体管言归正传,让我们继续关注此次BlackwellGPU。“我们需要更大的GPU,如果不能更大,就把更多GPU组合在一起,变成更大的虚拟GPU。”老黄在GTC上也确实这么干了。Blackwell架构的首个GPU为B200,由于目前4nm制程工艺已经接近极限,所以NVIDIA也玩起了“拼图”,B200采用台积电的4纳米(4NP)工艺蚀刻而成,由两个芯片通过NVLink5.0组合在一起,以10TB每秒的满血带宽互联,总的晶体管数量更是达到了恐怖的2080亿。第二代Transformer引擎除了芯片形态的变化外,Blackwell还有5大创新,首先就是第二代Transformer引擎。它支持FP4和FP6精度计算。得益于此,BlackwellGPU的FP4与FP6分别是Hopper的5倍与2.5倍。第五代NVLink互连第五代NVLink互连则是将多个BlackwellGPU组合起来的重要工具。它与传统的PCIe交换机不同,NVLink带宽有限,可以在服务器内的GPU之间实现高速直接互连。目前第五代NVLink可每个GPU提供了1.8TB/s双向吞吐量,确保多达576个GPU之间的无缝高速通信。RAS可靠性引擎这个RAS可靠性引擎则是基于AI实现,Blackwell透过专用的可靠性、可用性和可维护性(RAS)引擎,可增加智慧复原能力,及早辨认出可能发生的潜在故障,尽可能缩短停机时间。SecureAI安全AI功能SecureAI负责提供机密运算功能,同时Blackwell也是业界第一款支持EE-I/O的GPU,它可以在不影响性能的前提下,维护你的数据安全,这对于金融、医疗以及AI方面有极大作用。专用解压缩引擎最后一项创新技术则是关于解压缩层面,资料分析和资料库工作流程此前更多是仰赖CPU进行运算。如果放到GPU中进行则可大幅提升端对端分析的效能,加速创造价值,同时降低成本。Blackwell配备了专用的解压缩引擎,使用过程中可以配合内置的GraceCPU实现每秒900GB的双向频宽,并且还能兼顾最新的压缩格式(如LZ4、Snappy和Deflate等)。超级核弹GB200而两个B200GPU与GraceCPU结合就成为今天“火热”的GB200超级芯片。这款超级芯片的性能更加惊人,你以为H100已经很快了?不!GB200更快,过去,在90天内训练一个1.8万亿参数的MoE架构GPT模型,需要8000个Hopper架构GPU。现在,你只要2000个BlackwellGPU就可以完成。官方称,在标准的1750亿参数GPT-3基准测试中,GB200的性能是H100的7倍,提供的训练算力是H100的4倍。不止是性能更快更强,BlackwellGPU还相当节能。还是同样的操作,90天内训练一个1.8万亿参数的MoE架构GPT模型,8000个HopperGPU要耗费15兆瓦功耗,如今的BlackwellGPU仅需1/4的能耗就能实现。如果你需要更强劲的GPU,NVIDIA也面向有大型需求的企业提供成品服务,提供完整的服务器。例如:GB200NVL72,它将36个CPU和72个GPU插入一个液冷机架中,总共可实现720petaflops的AI训练性能或1,440petaflops(1.4exaflops)的推理。与相同数量的72个H100相比,GB200NVL72的性能绝对是逆天的存在,大模型推理性能可以提升30倍,并且成本和能耗只有前者的1/25。当然,最炸裂的要数适用于DGXGB200的DGXSuperpod,它将八个GB200NVL72合二为一,总共有288个CPU、576个GPU、240TB内存和11.5exaflops的FP4计算能力。老黄更是在GTC上直言“DGXSuperpod就是AI的革命工厂!”结语以上就是本次GTC2024的硬件相关报道,可能有玩家会说,怎么没有游戏显卡?其实按照过往惯例,NVIDIA并没有在GTC上推出消费级显卡的习惯。不过本次NVIDIA在GTC2024上推出的B100显卡所使用的架构是Blackwell,上面我们也讲过了,这是一个跨越数据中心与消费级产品的架构,这也就意味着我们熟悉的GeForce显卡应该也是同一架构的产品,不出意外的话,下半年我们就有望看到心心念念的RTX50系显卡了!...PC版:https://www.cnbeta.com.tw/articles/soft/1424219.htm手机版:https://m.cnbeta.com.tw/view/1424219.htm

封面图片

【英伟达宣布生成式AI引擎DGX GH200已投入量产,可支持万亿参数AI大模型训练】

【英伟达宣布生成式AI引擎DGXGH200已投入量产,可支持万亿参数AI大模型训练】2023年05月29日09点36分5月29日消息,美东时间5月28日,英伟达创始人兼CEO黄仁勋在NVIDIAComputex2023演讲中宣布,生成式AI引擎NVIDIADGXGH200现已投入量产。英伟达官网显示,NVIDIADGXGH200是将256个NVIDIAGraceHopper超级芯片完全连接到单个GPU中的新型AI超级计算机,支持万亿参数AI大模型训练。能够处理大规模推荐系统、生成式人工智能和图形分析,并为巨型人工智能模型提供线性可扩展性。

封面图片

首块英伟达 AI 超级芯片 H200 交付,黄仁勋给 OpenAI “送货上门”

首块英伟达AI超级芯片H200交付,黄仁勋给OpenAI“送货上门”地时间4月24日,OpenAI总裁兼联合创始人格雷戈里・布罗克曼(GregBrockman)在X平台上表示,英伟达CEO黄仁勋已向OpenAI亲手交付全球范围内第一块AI(人工智能)超级芯片DGXH200,黄仁勋称其“将推进AI、计算、以及文明”。布罗克曼还附上了自己和黄仁勋、OpenAI的CEO萨姆・奥特曼(SamAltman)以及DGXH200的合照。(澎湃新闻)

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人