:在单个GPU上(如16GB T4 GPU或24GB RTX3090游戏卡)运行像OPT-175B/GPT-3这样的大型语言模型

:在单个GPU上(如16GB T4 GPU或24GB RTX3090游戏卡)运行像OPT-175B/GPT-3这样的大型语言模型,比其他基于offloading的系统快100倍。 FlexGen 允许通过IO高效卸载、压缩和大有效批处理大小生成高吞吐量。

相关推荐

封面图片

英伟达发布 RTX 3090 Ti 旗舰显卡:10752 CUDA 核心,24GB 显存

英伟达发布 RTX 3090 Ti 旗舰显卡:10752 CUDA 核心,24GB 显存 GeForce RTX 3090 Ti 配备 10752 个 CUDA 核心和 24GB21 Gbps GDDR6X 显存,功耗高达 450W ,比 RTX 3090 型号高出 100W 以上。这款显卡也是第一个使用 16 pin 电源连接器的型号

封面图片

RTX 5090有望采用24GB GDDR 7显存 512位宽

RTX 5090有望采用24GB GDDR 7显存 512位宽 根据GPU泄密者Kopite7kimi的说法,下一代NVIDIA RTX 50系列“Blackwell”架构的GB203和全新GB205芯片的显存带宽将与当前RTX 40系列的AD103和AD104 GPU芯片相同。这些芯片用于一些顶级显卡,例如RTX 4080 Super和RTX 4070 Super。Kopite7kimi透露,Blackwell架构的GPU将跳过384位宽。Blackwell架构的GPU可能使用192位宽和256位宽,分别对应GB205和GB203芯片。而GB202芯片则将配备512位宽,这有可能是GeForce RTX 4090的下一代接班人。即使显存本身规格相同,这样的设置也将使性能相比GeForce RTX 4090有所提升。由于采用了GDDR 7显存新技术,GeForce RTX 5090在性能上应该能够超越其前辈。根据泄露的信息,下一代产品可能会有以下配置:GB202 (RTX 5090):512位宽,24GB显存,1536 GB/s带宽GB203:384位宽,16GB显存,1024 GB/s带宽GB204:256位宽,12GB显存,768 GB/s带宽 ... PC版: 手机版:

封面图片

NVIDIA 今天宣布了GeForce RTX™ 40 SUPER 系列GPU家族 包括GeForce RTX 4080 SU

NVIDIA 今天宣布了GeForce RTX™ 40 SUPER 系列GPU家族 包括GeForce RTX 4080 SUPER、GeForce RTX 4070 Ti SUPER和GeForce RTX 4070 SUPER 它们为最新游戏提供了超强动力,并构成了以AI为核心的个人电脑的基础。 这款最新的基于NVIDIA Ada Lovelace架构的GPU提供高达52 shader TFLOPS、121 RT TFLOPS和836 AI TOPS的性能,以加速游戏和创作并提供开发新的娱乐世界和体验所需的动力。GeForce RTX 4070 SUPER起售价为599美元。 PC游戏玩家追求最佳的视觉质量,AI驱动的NVIDIA深度学习超级采样(DLSS)超分辨率、帧生成和光线重建与光线追踪相结合,在《暗黑破坏神IV》、《Pax Dei》和《地平线:禁忌之西》等游戏中提供令人惊叹的世界只需点击一下即可体验。有了DLSS,八个像素中有七个可以由AI生成,加速全光线追踪速度高达4倍,同时提供更好的图像质量。 新的GeForce RTX SUPER GPU是在个人电脑上体验人工智能的最佳方式。专用的AI Tensor核心提供高达836 AI TOPS的性能,为游戏、创作和日常生产力中的人工智能提供变革性能力。建立在RTX GPU之上的丰富软件堆栈进一步加速了人工智能的应用 NVIDIA TensorRT™ 是用于高性能深度学习推理的软件,包括一个深度学习推理优化器和运行时,为推理应用提供低延迟和高吞吐量。TensorRT-LLM for Windows 是一个开源库,它加速了最新大型语言模型的推理性能。在AI工作负载中,GeForce RTX 4080 SUPER 生成视频的速度比 RTX 3080 Ti 快1.5倍以上,生成图像的速度快1.7倍以上。 GeForce RTX 4080 SUPER 能够以 4K 分辨率全面支持光线追踪游戏。其速度比没有使用 DLSS 帧生成技术的 GeForce RTX 3080 Ti 快 1.4 倍,RTX 4080 SUPER 在传统光栅化方面提供了惊人的性能。凭借 836 AI TOPS,DLSS 帧生成技术为性能提供了额外的提升,使 RTX 4080 SUPER 的速度是 RTX 3080 Ti 的两倍。RTX 4080 SUPER 拥有更多的核心和更快的内存,以获得性能优势。它将从 1 月 31 日起上市,起售价为 999 美元。 RTX 4070 Ti SUPER是理想的GPU,能够在1440p超高帧率下全面提升游戏体验,甚至达到4K。与RTX 4070 Ti相比,它拥有更多的核心,扩大了帧缓冲至16GB,并且具有256位的内存总线,显著增加了内存带宽至672 GB/秒。它比RTX 3070 Ti快1.6倍,使用DLSS 3技术时快2.5倍。GeForce RTX 4070 Ti SUPER将于1月24日起发售,售价为799美元。 RTX 4070 SUPER搭载的核心比RTX 4070多出20%,使其在功耗仅为一小部分的情况下速度超过RTX 3090。配合DLSS 3技术,其领先优势扩大到1.5倍。该产品将于1月17日起以599美元的价格开始发售。 标签: #英伟达 #显卡 #Nvidia 频道: @GodlyNews1 投稿: @GodlyNewsBot

封面图片

NVIDIA GeForce RTX 5090和5080"Blackwell"GPU传闻将于四季度发布

NVIDIA GeForce RTX 5090和5080"Blackwell"GPU传闻将于四季度发布 迄今为止发布的英伟达 Blackwell GPU 完全是为 AI 和 HPC 细分市场打造的,但我们可以确定的是,已经有一个 Blackwell GPU IP 将为下一代 RTX 显卡提供动力。预计这些显卡将使用 RTX 50 系列品牌。据悉,英伟达将再次重点推出高端显卡,如 GeForce RTX 5090,随后在 2024 年第四季度推出 GeForce RTX 5080。这些显卡将有利于英伟达的板卡合作伙伴扩大出货量,而且随着越来越多的玩家向高端升级,这些 GPU 的推出还将有助于推高 GPU 的平均销售价格(ASP)。随着英伟达猛攻人工智能业务,显卡相关产品也不断推陈出新。板卡制造商预计,英伟达最新的 RTX 50 系列显卡将在第四季度亮相。初期将主打高端和高端的 5090 和 5080 产品线。该法人乐观地认为,英伟达两年一次的 GPU 更新的推出将有助于板卡制造商今年的出货量,并将推动显卡产品平均单价(ASP)的上涨。根据之前的传言,英伟达预计将推出两款旗舰芯片,分别为 GB202 和 GB203。Blackwell GB202 游戏图形处理器将采用台积电 4NP 节点,大幅提升高速缓存和 SM 吞吐量。前者可能会被 GeForce RTX 5090 采用,而后者则有望被 RTX 5080 采用,两款 GPU 预计都将使用最新的 GDDR7 内存接口,总线接口最高可达 512 位。以下是各种 Blackwell GPU SKU 的内存配置:GB202 - 512 位/28 Gbps / 32 GB(最大内存)/1792 GB/s(最大带宽)GB202 - 384 位 / 28 Gbps / 24 GB(最大内存)/ 1344 GB/秒(最大带宽)GB203 - 256 位 / 28 Gbps / 16 GB(最大内存)/ 896.0 GB/秒(最大带宽)GB205 - 192 位 / 28 Gbps / 12 GB(最大内存)/ 672.0 GB/秒(最大带宽)GB206 - 128 位 / 28 Gbps / 8 GB(最大内存)/ 448.0 GB/秒(最大带宽)GB207 - 128 位 / 28 Gbps / 8 GB(最大内存)/ 448.0 GB/秒(最大带宽)最近两次重大发布,Ampere(GeForce RTX 3090)和Ada(GeForce RTX 4090)都是在第三季度末或第四季度初。因此,下一代旗舰产品 GeForce RTX 5090 和 RTX 5080 在 2024 年第四季度的发布日期听起来是可信的。 ... PC版: 手机版:

封面图片

GTC 2024硬件一览:史上最强AI芯片GB200发布 高达2080亿晶体管

GTC 2024硬件一览:史上最强AI芯片GB200发布 高达2080亿晶体管 今年的GTC峰会主题完全围绕AI展开,2个小时的时间,老黄又一次带来了AI的变革时刻。当然除了老黄的开幕演讲外,后面还有900多场鼓舞人心的会议在等着你。同时此次GTC大会还吸引了超过200家展商,汇聚了数千名不同行业领域的从业人员一同参与。丰富多彩的技术分享、越见非凡的创新技术,称它是AI的盛会都不为过。想必你也好奇老黄究竟在GTC上带来了什么惊喜吧,别着急,本篇带你一睹GTC峰会上的那些硬件产品。见证AI的变革时刻峰会伊始,我们熟悉的皮衣刀客准时出场。一上来就直奔今天的主题AI,并表示“加速式计算机的生产力已经到达了一个转折点,生成式AI正在加速发展,而我们需要以一种全新的方式进行计算,才能够进一步提高计算机生产力。”并且还贴心的展示了其自己亲手画出的关于计算机生产力的演变流程,最后一项正是今天的重点!改变形态的Blackwell GPU没错,老黄在GTC宣布推出新一代GPU Blackwell。这里先介绍一下Blackwell架构,此前NVIDIA推出的显卡一般是两种架构,其中游戏显卡例如我们熟悉的RTX 40系则是Ada Lovelace架构,而面向AI、大数据等应用的专业级显卡则采用Hopper 架构。而老黄在大会上则表示“Blackwell不是一个芯片,它是一个平台的名字。”意思是Blackwell架构将同时用于以上两种类型的产品。借助这一架构,NVIDIA将推出涵盖多个应用领域的显卡,即RTX 50系显卡也会是这个架构。并且从老黄手上的芯片可以看出,新的Blackwell GPU的体积明显比上代Hopper GPU要更大一些。至于这个架构名字的由来,则要追溯到美国科学院首位黑人院士、加州大学伯克利分校首位黑人终身教授戴维·布莱克维尔(David Blackwell),它是著名的数学家、统计学家,不过很可惜的是这位教授在2010年因病去世。恐怖的2080亿晶体管言归正传,让我们继续关注此次Blackwell GPU。“我们需要更大的GPU,如果不能更大,就把更多GPU组合在一起,变成更大的虚拟GPU。”老黄在GTC上也确实这么干了。Blackwell架构的首个GPU为B200,由于目前4nm制程工艺已经接近极限,所以NVIDIA也玩起了“拼图”,B200采用台积电的 4 纳米(4NP)工艺蚀刻而成,由两个芯片通过NVLink 5.0组合在一起,以10TB每秒的满血带宽互联,总的晶体管数量更是达到了恐怖的2080 亿。第二代Transformer引擎除了芯片形态的变化外,Blackwell还有5大创新,首先就是第二代Transformer引擎。它支持FP4和FP6精度计算。得益于此,Blackwell GPU的FP4与FP6分别是Hopper的5倍与2.5倍。第五代NVLink互连第五代NVLink互连则是将多个Blackwell GPU组合起来的重要工具。它与传统的PCIe交换机不同,NVLink带宽有限,可以在服务器内的GPU之间实现高速直接互连。目前第五代NVLink可每个GPU 提供了1.8TB/s双向吞吐量,确保多达576个GPU之间的无缝高速通信。RAS可靠性引擎这个RAS可靠性引擎则是基于AI实现,Blackwell 透过专用的可靠性、可用性和可维护性 (RAS) 引擎,可增加智慧复原能力,及早辨认出可能发生的潜在故障,尽可能缩短停机时间。Secure AI安全AI功能Secure AI负责提供机密运算功能,同时Blackwell也是业界第一款支持EE-I/O的GPU,它可以在不影响性能的前提下,维护你的数据安全,这对于金融、医疗以及AI方面有极大作用。专用解压缩引擎最后一项创新技术则是关于解压缩层面,资料分析和资料库工作流程此前更多是仰赖CPU 进行运算。如果放到GPU中进行则可大幅提升端对端分析的效能,加速创造价值,同时降低成本。Blackwell配备了专用的解压缩引擎,使用过程中可以配合内置的Grace CPU实现每秒900 GB的双向频宽,并且还能兼顾最新的压缩格式 (如 LZ4、Snappy和Deflate等)。超级核弹GB200而两个B200 GPU与Grace CPU结合就成为今天“火热”的GB200超级芯片。这款超级芯片的性能更加惊人,你以为H100已经很快了?不!GB200更快,过去,在90天内训练一个1.8万亿参数的MoE架构GPT模型,需要8000个Hopper架构GPU。现在,你只要2000个Blackwell GPU就可以完成。官方称,在标准的1750亿参数GPT-3基准测试中,GB200的性能是H100的7倍,提供的训练算力是H100的4倍。不止是性能更快更强,Blackwell GPU还相当节能。还是同样的操作,90天内训练一个1.8万亿参数的MoE架构GPT模型,8000个Hopper GPU要耗费15兆瓦功耗,如今的Blackwell GPU仅需1/4的能耗就能实现。如果你需要更强劲的GPU,NVIDIA也面向有大型需求的企业提供成品服务,提供完整的服务器。例如:GB200 NVL72,它将36个CPU和72个GPU插入一个液冷机架中,总共可实现720 petaflops的AI训练性能或1,440 petaflops(1.4 exaflops)的推理。与相同数量的72个H100相比,GB200 NVL72的性能绝对是逆天的存在,大模型推理性能可以提升30倍,并且成本和能耗只有前者的1/25。当然,最炸裂的要数适用于 DGX GB200 的 DGX Superpod,它将八个GB200 NVL72合二为一,总共有288个CPU、576个GPU、240TB内存和11.5 exaflops的FP4计算能力。老黄更是在GTC上直言“DGX Superpod就是AI的革命工厂!”结语以上就是本次GTC 2024的硬件相关报道,可能有玩家会说,怎么没有游戏显卡?其实按照过往惯例,NVIDIA并没有在GTC上推出消费级显卡的习惯。不过本次NVIDIA在GTC 2024上推出的B100显卡所使用的架构是Blackwell,上面我们也讲过了,这是一个跨越数据中心与消费级产品的架构,这也就意味着我们熟悉的GeForce显卡应该也是同一架构的产品,不出意外的话,下半年我们就有望看到心心念念的RTX 50系显卡了! ... PC版: 手机版:

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人