微软打破 Decoder-Only 架构:大幅降低 GPU 内存需求

微软打破Decoder-Only架构:大幅降低GPU内存需求https://www.ithome.com/0/767/340.htmhttps://arxiv.org/abs/2405.05254(英文)微软&清华最新研究,打破GPT系列开创的Decoder-Only架构——提出Decoder-Decoder新型架构,名为YOCO(YouOnlyCacheOnce)。YOCO仅缓存一次键值对,可大幅降低GPU内存需求,且保留全局注意力能力。一张图来看YOCO和标准Transformer的比较。在处理512K上下文长度时,标准Transformer内存使用是YOCO的6.4倍,预填充延迟是YOCO的30.3倍,而YOCO的吞吐量提升到标准Transformer的9.6倍。

相关推荐

封面图片

微软新专利能降低光线追踪对GPU内存的需求,让8GB显卡重回游戏舞台

微软新专利能降低光线追踪对GPU内存的需求,让8GB显卡重回游戏舞台https://www.digitaltrends.com/computing/microsofts-new-patent-reduces-ray-tracing-requirements/微软发布了一项新专利,描述了一项能够显著减少光线追踪对GPU内存影响的技术。光线追踪是一种渲染技术,可以通过模拟光的物理行为来创建真实的光照效果,但它对GPU资源的需求非常高,尤其是内存。这项新的专利描述了一种使光线追踪更有效率的方法,这样一来,那些内存较小的显卡,比如只有8GB视频内存的,也能再次用于游戏和其他高端图形任务。这一创新可以对光线追踪技术的整体性能和可获得性产生深远影响,可能允许更多用户在不需要高端昂贵硬件的情况下,享受其带来的好处。

封面图片

Arm发布G720 GPU:第五代GPU架构 节省40%带宽

Arm发布G720GPU:第五代GPU架构节省40%带宽此前的ArmGPU架构使用的还是基于贴图(tile)的渲染技术,在G720使用的第五代GPU架构使用了全新的DVS(DeferredVertexShading,延迟顶点着色)技术。DVS技术的好处就是顶点着色的过程中,在执行阶段才会载入内存中,不像之前那样需要两次载入内存,因此大幅降低了对带宽的要求。在手机等移动平台的图形渲染中,内存带宽会消耗1/3的功耗,因此DVS技术可以大幅降低游戏功耗,提升续航,同时也提高了能效。根据Arm公布的数据,在《精灵废墟》游戏中带宽节省了41%,《原神》中节省了33%带宽,《堡垒之夜》中为26%,甚至在CAD的应用中也可以节省37%的带宽。不过DVS技术对性能的提升似乎不算夸张,峰值性能提升了15%,每瓦性能提升了15%左右。总的来说,G720的DVS架构更多地是降低了带宽需求,节省了功耗,跟CPU一样都更看重能效提升,这样倒是更符合日常使用,发热会更低,手机续航更好。另外在画质方面,Arm提及的不多,但受益于带宽节省,动态照明、景深及光追等技术也会更好,同时虚幻5引擎年底也会进入手机平台。G720系列GPU这次会分为三个级别,最高端的叫做ImmortalisG720,核心可以更多,至少10个以上,多的可达16核。往下就是Mali-G720,GPU核心数在6到9个之间,再往下就是Mali-G620,GPU核心数在5个及以下。...PC版:https://www.cnbeta.com.tw/articles/soft/1362215.htm手机版:https://m.cnbeta.com.tw/view/1362215.htm

封面图片

OpenDiT 一个专门用来加速类似Sora的DiT架构模型推理和训练的项目,GPU 加速高达 80%,内存减少 50%。#ai

OpenDiT一个专门用来加速类似Sora的DiT架构模型推理和训练的项目,GPU加速高达80%,内存减少50%。主要特点有:GPU加速高达80%,内存减少50%,内核优化包括FlashAttention、FusedAdaLN、FusedLayernorm内核。FastSeq:一种新颖的序列并行方法,专为激活大小较大但参数大小较小的类似DiT的工作负载而设计。使用方便,通过一些生产线更改即可获得巨大的性能提升,用户不需要了解分布式训练的实现。支持文本到图像和文本到视频生成的完整流程。项目地址:

封面图片

NVIDIA CPU+GPU超级芯片终于量产 搭配144TB内存

NVIDIACPU+GPU超级芯片终于量产搭配144TB内存再加上GraceCPU、HopperGPU、AdaLovelaceGPU、BlueFieldDPU等全套系统方案,NVIDIA现在已经有400多种配置,可满足市场对生成式AI的激增需求。欧洲和美国的超大规模云服务商、超算中心,将会成为接入GH200系统的首批客户。同时,黄仁勋还公布了GraceHopper的更多细节,尤其是它的CPU、GPU之间使用NVLink-C2C互连技术,总带宽高达900GB/s,相比传统的PCIe5.0通道超出足足7倍,能够满足要求最苛刻的生成式AI和HPC应用,功耗也降低了超过80%。GraceCPU拥有72个Armv9CPU核心,缓存容量198MB,支持LPDDR5XECC内存,带宽高达1TB/s,还支持PCIe5.0。HopperGPU则采用台积电4nm定制工艺,集成多达800亿个晶体管,号称世界上最先进的芯片,集成18432个CUDA核心、576个Tenor核心、60MB二级缓存,支持6144-bitHBM3/2e高带宽内存。同时,NVIDIA宣布推出一款新型大内存AI超级计算机“DGXGH200”,可用于开发面向生成式AI语言应用、推荐系统和数据分析工作负载的下一代大模型。它配备了多达256颗GH200GraceHopper超级芯片,彼此NVLinkSwitchSystem互相连接,带宽提升48倍以上,对外可作为单个GPU使用,浮点性能高达1PFlops(每秒1千万亿次浮点计算)。同时还有144TB共享内存,相比2020年的上一代DGXA100增大了近500倍。...PC版:https://www.cnbeta.com.tw/articles/soft/1362341.htm手机版:https://m.cnbeta.com.tw/view/1362341.htm

封面图片

微软将设定 AI PC 准入门槛:最低 16GB 内存和 40 TOPS 算力

微软似乎正在为AI电脑制定一系列新的最低配置标准,但目前还没有通过官方渠道公布。我们从自己的消息来源了解到,AI电脑将提高最低内存配置要求,TrendForce也听说了同样的消息,并表示WindowsAI电脑的最低内存配置将为16GB。同时,我们的消息来源和TrendForce都认为,新的Windows电脑至少需要40TOPS的计算能力,才能达到被标记为AI电脑的标准。周三,在一份关于微软Copilot的新闻稿中,TrendForce表示:“微软已经将AI电脑中DRAM的基准设定为16GB。”因此,Windows将再次在推动新电脑可接受的最低内存容量方面发挥关键作用。据说英特尔现有的MeteorLake芯片组合起来的CPU、GPU和NPU性能最高能达到34TOPS。TrendForce推测,英特尔的LunarLake将会解决AI电脑在这个基准性能上的不足。英特尔自己也表示,Lunar的AI性能将是它的前身MeteorLake的三倍。其他像AMD和高通这样的WindowsPC处理器制造商也没有落后太多。预计AMDRyzen8000系列(StrixPoint)能够达到45TOPS的性能。高通的SnapdragonXElite平台也被认为能提供大约45TOPS的性能。标签:#微软#AI频道:@GodlyNews1投稿:@GodlyNewsBot

封面图片

PS5 Pro更多规格外泄:CPU、内存带宽小幅度提升

PS5Pro更多规格外泄:CPU、内存带宽小幅度提升系统内存带宽标准版PS5:448GB/s(14GT/s)PS5Pro:576GB/s(18GT/s),比标准版PS5提升了28%CPU标准版PS5:x86-64-AMDRyzenZen8核/16线程,3.5GHz(可变频率)PS5Pro:虽然PS5Pro的CPU和标准版PS5一样,但Pro的CPU频率更高,来到了3.85GHz,比PS5提升了10%注:在高CPU频率模式下,更多的功率分配给CPU,并将GPU降频约1.5%,导致GPU性能降低约1%音频PS5Pro的ACV拥有比标准版PS5更高的时钟速度,从而使ACM库性能提升35%。这意味着:可以处理更多的卷积混响(convolutionreverb)可以处理更多的快速傅里叶变换(FFT)或逆快速傅里叶变换(IFFT)GPU渲染速度比PS5快45%光线追踪性能提升2-3倍(某些情况下可达4倍)33.5TFLOPS浮点性能PSSR(PlayStation光谱超级分辨率缩放)用于画面缩放和抗锯齿未来SDK版本计划支持高达8K分辨率定制机器学习架构AI加速器,支持300TOPS(8位运算)/67TFLOPS(16位浮点运算)GPU补充标准版PS5:GPU为18个WGP(工作组处理器)/36个CUPS5Pro:GPU升级为拥有30个WGP(工作组处理器)/60个CU的RDNA3架构芯片注:WGP是AMD在RDNA架构中开始使用,与之前使用了10多年的GCN架构中的CU单元有很大不同。简单来说,1个WGP相当于2个CU单元。PS5Pro使用30WGP的话就相当于60组CU单元,3840个流处理器单元,预计仍将采用RDNA3架构。这个GPU规模比RX7900XT的84组CU单元弱一些,应该与RX7800相当。额外信息:1TB硬盘可拆卸光驱PS5Pro当前SKD为9.00,而今年秋季发售时SKD为10.00...PC版:https://www.cnbeta.com.tw/articles/soft/1424039.htm手机版:https://m.cnbeta.com.tw/view/1424039.htm

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人