微软打破 Decoder-Only 架构：大幅降低 GPU 内存需求

微软打破Decoder-Only架构：大幅降低GPU内存需求https://www.ithome.com/0/767/340.htmhttps://arxiv.org/abs/2405.05254（英文）微软&清华最新研究，打破GPT系列开创的Decoder-Only架构——提出Decoder-Decoder新型架构，名为YOCO（YouOnlyCacheOnce）。YOCO仅缓存一次键值对，可大幅降低GPU内存需求，且保留全局注意力能力。一张图来看YOCO和标准Transformer的比较。在处理512K上下文长度时，标准Transformer内存使用是YOCO的6.4倍，预填充延迟是YOCO的30.3倍，而YOCO的吞吐量提升到标准Transformer的9.6倍。

在Telegram中查看

相关推荐

微软新专利能降低光线追踪对GPU内存的需求，让8GB显卡重回游戏舞台

微软新专利能降低光线追踪对GPU内存的需求，让8GB显卡重回游戏舞台https://www.digitaltrends.com/computing/microsofts-new-patent-reduces-ray-tracing-requirements/微软发布了一项新专利，描述了一项能够显著减少光线追踪对GPU内存影响的技术。光线追踪是一种渲染技术，可以通过模拟光的物理行为来创建真实的光照效果，但它对GPU资源的需求非常高，尤其是内存。这项新的专利描述了一种使光线追踪更有效率的方法，这样一来，那些内存较小的显卡，比如只有8GB视频内存的，也能再次用于游戏和其他高端图形任务。这一创新可以对光线追踪技术的整体性能和可获得性产生深远影响，可能允许更多用户在不需要高端昂贵硬件的情况下，享受其带来的好处。

Arm发布G720 GPU：第五代GPU架构节省40%带宽

Arm发布G720GPU：第五代GPU架构节省40%带宽此前的ArmGPU架构使用的还是基于贴图（tile）的渲染技术，在G720使用的第五代GPU架构使用了全新的DVS（DeferredVertexShading，延迟顶点着色）技术。DVS技术的好处就是顶点着色的过程中，在执行阶段才会载入内存中，不像之前那样需要两次载入内存，因此大幅降低了对带宽的要求。在手机等移动平台的图形渲染中，内存带宽会消耗1/3的功耗，因此DVS技术可以大幅降低游戏功耗，提升续航，同时也提高了能效。根据Arm公布的数据，在《精灵废墟》游戏中带宽节省了41%，《原神》中节省了33%带宽，《堡垒之夜》中为26%，甚至在CAD的应用中也可以节省37%的带宽。不过DVS技术对性能的提升似乎不算夸张，峰值性能提升了15%，每瓦性能提升了15%左右。总的来说，G720的DVS架构更多地是降低了带宽需求，节省了功耗，跟CPU一样都更看重能效提升，这样倒是更符合日常使用，发热会更低，手机续航更好。另外在画质方面，Arm提及的不多，但受益于带宽节省，动态照明、景深及光追等技术也会更好，同时虚幻5引擎年底也会进入手机平台。G720系列GPU这次会分为三个级别，最高端的叫做ImmortalisG720，核心可以更多，至少10个以上，多的可达16核。往下就是Mali-G720，GPU核心数在6到9个之间，再往下就是Mali-G620，GPU核心数在5个及以下。...PC版：https://www.cnbeta.com.tw/articles/soft/1362215.htm手机版：https://m.cnbeta.com.tw/view/1362215.htm

OpenDiT 一个专门用来加速类似Sora的DiT架构模型推理和训练的项目，GPU 加速高达 80%，内存减少 50%。#ai

OpenDiT一个专门用来加速类似Sora的DiT架构模型推理和训练的项目，GPU加速高达80%，内存减少50%。主要特点有：GPU加速高达80%，内存减少50%，内核优化包括FlashAttention、FusedAdaLN、FusedLayernorm内核。FastSeq：一种新颖的序列并行方法，专为激活大小较大但参数大小较小的类似DiT的工作负载而设计。使用方便，通过一些生产线更改即可获得巨大的性能提升，用户不需要了解分布式训练的实现。支持文本到图像和文本到视频生成的完整流程。项目地址：

NVIDIA CPU+GPU超级芯片终于量产搭配144TB内存

NVIDIACPU+GPU超级芯片终于量产搭配144TB内存再加上GraceCPU、HopperGPU、AdaLovelaceGPU、BlueFieldDPU等全套系统方案，NVIDIA现在已经有400多种配置，可满足市场对生成式AI的激增需求。欧洲和美国的超大规模云服务商、超算中心，将会成为接入GH200系统的首批客户。同时，黄仁勋还公布了GraceHopper的更多细节，尤其是它的CPU、GPU之间使用NVLink-C2C互连技术，总带宽高达900GB/s，相比传统的PCIe5.0通道超出足足7倍，能够满足要求最苛刻的生成式AI和HPC应用，功耗也降低了超过80％。GraceCPU拥有72个Armv9CPU核心，缓存容量198MB，支持LPDDR5XECC内存，带宽高达1TB/s，还支持PCIe5.0。HopperGPU则采用台积电4nm定制工艺，集成多达800亿个晶体管，号称世界上最先进的芯片，集成18432个CUDA核心、576个Tenor核心、60MB二级缓存，支持6144-bitHBM3/2e高带宽内存。同时，NVIDIA宣布推出一款新型大内存AI超级计算机“DGXGH200”，可用于开发面向生成式AI语言应用、推荐系统和数据分析工作负载的下一代大模型。它配备了多达256颗GH200GraceHopper超级芯片，彼此NVLinkSwitchSystem互相连接，带宽提升48倍以上，对外可作为单个GPU使用，浮点性能高达1PFlops(每秒1千万亿次浮点计算)。同时还有144TB共享内存，相比2020年的上一代DGXA100增大了近500倍。...PC版：https://www.cnbeta.com.tw/articles/soft/1362341.htm手机版：https://m.cnbeta.com.tw/view/1362341.htm

微软将设定 AI PC 准入门槛：最低 16GB 内存和 40 TOPS 算力

微软似乎正在为AI电脑制定一系列新的最低配置标准，但目前还没有通过官方渠道公布。我们从自己的消息来源了解到，AI电脑将提高最低内存配置要求，TrendForce也听说了同样的消息，并表示WindowsAI电脑的最低内存配置将为16GB。同时，我们的消息来源和TrendForce都认为，新的Windows电脑至少需要40TOPS的计算能力，才能达到被标记为AI电脑的标准。周三，在一份关于微软Copilot的新闻稿中，TrendForce表示：“微软已经将AI电脑中DRAM的基准设定为16GB。”因此，Windows将再次在推动新电脑可接受的最低内存容量方面发挥关键作用。据说英特尔现有的MeteorLake芯片组合起来的CPU、GPU和NPU性能最高能达到34TOPS。TrendForce推测，英特尔的LunarLake将会解决AI电脑在这个基准性能上的不足。英特尔自己也表示，Lunar的AI性能将是它的前身MeteorLake的三倍。其他像AMD和高通这样的WindowsPC处理器制造商也没有落后太多。预计AMDRyzen8000系列（StrixPoint）能够达到45TOPS的性能。高通的SnapdragonXElite平台也被认为能提供大约45TOPS的性能。标签:#微软#AI频道:@GodlyNews1投稿:@GodlyNewsBot

PS5 Pro更多规格外泄：CPU、内存带宽小幅度提升

PS5Pro更多规格外泄：CPU、内存带宽小幅度提升系统内存带宽标准版PS5：448GB/s(14GT/s)PS5Pro：576GB/s(18GT/s)，比标准版PS5提升了28%CPU标准版PS5：x86-64-AMDRyzenZen8核/16线程，3.5GHz(可变频率)PS5Pro：虽然PS5Pro的CPU和标准版PS5一样，但Pro的CPU频率更高，来到了3.85GHz，比PS5提升了10%注：在高CPU频率模式下，更多的功率分配给CPU，并将GPU降频约1.5%，导致GPU性能降低约1%音频PS5Pro的ACV拥有比标准版PS5更高的时钟速度，从而使ACM库性能提升35%。这意味着：可以处理更多的卷积混响(convolutionreverb)可以处理更多的快速傅里叶变换(FFT)或逆快速傅里叶变换(IFFT)GPU渲染速度比PS5快45%光线追踪性能提升2-3倍（某些情况下可达4倍）33.5TFLOPS浮点性能PSSR(PlayStation光谱超级分辨率缩放)用于画面缩放和抗锯齿未来SDK版本计划支持高达8K分辨率定制机器学习架构AI加速器，支持300TOPS（8位运算）/67TFLOPS（16位浮点运算）GPU补充标准版PS5：GPU为18个WGP（工作组处理器）/36个CUPS5Pro：GPU升级为拥有30个WGP（工作组处理器）/60个CU的RDNA3架构芯片注：WGP是AMD在RDNA架构中开始使用，与之前使用了10多年的GCN架构中的CU单元有很大不同。简单来说，1个WGP相当于2个CU单元。PS5Pro使用30WGP的话就相当于60组CU单元，3840个流处理器单元，预计仍将采用RDNA3架构。这个GPU规模比RX7900XT的84组CU单元弱一些，应该与RX7800相当。额外信息：1TB硬盘可拆卸光驱PS5Pro当前SKD为9.00，而今年秋季发售时SKD为10.00...PC版：https://www.cnbeta.com.tw/articles/soft/1424039.htm手机版：https://m.cnbeta.com.tw/view/1424039.htm

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人