微软打破 Decoder-Only 架构：大幅降低 GPU 内存需求

微软打破 Decoder-Only 架构：大幅降低 GPU 内存需求（英文）微软 & 清华最新研究，打破 GPT 系列开创的 Decoder-Only 架构提出 Decoder-Decoder 新型架构，名为 YOCO（You Only Cache Once）。 YOCO 仅缓存一次键值对，可大幅降低 GPU 内存需求，且保留全局注意力能力。一张图来看 YOCO 和标准 Transformer 的比较。在处理 512K 上下文长度时，标准 Transformer 内存使用是 YOCO 的 6.4 倍，预填充延迟是 YOCO 的 30.3 倍，而 YOCO 的吞吐量提升到标准 Transformer 的 9.6 倍。

在Telegram中查看

相关推荐

微软新专利能降低光线追踪对GPU内存的需求，让8GB显卡重回游戏舞台

微软新专利能降低光线追踪对GPU内存的需求，让8GB显卡重回游戏舞台微软发布了一项新专利，描述了一项能够显著减少光线追踪对GPU内存影响的技术。光线追踪是一种渲染技术，可以通过模拟光的物理行为来创建真实的光照效果，但它对GPU资源的需求非常高，尤其是内存。这项新的专利描述了一种使光线追踪更有效率的方法，这样一来，那些内存较小的显卡，比如只有8GB视频内存的，也能再次用于游戏和其他高端图形任务。这一创新可以对光线追踪技术的整体性能和可获得性产生深远影响，可能允许更多用户在不需要高端昂贵硬件的情况下，享受其带来的好处。

微软为XSS游戏开发者释放数百兆可用内存，降低优化难度

微软为XSS游戏开发者释放数百兆可用内存，降低优化难度微软新推出的新版本 Xbox 游戏开发工具包，为开发者在 Xbox Series S 主机上释放出额外的数百兆内存用于游戏开发，从而在内存受限的情况下提升图形性能

传 Sony PlayStation 5 Pro 的处理器 CPU 仅拉高频率但 GPU 大幅强化

传 Sony PlayStation 5 Pro 的处理器 CPU 仅拉高频率但 GPU 大幅强化业界普遍认为CPU仍维持Zen 2架构，GPU将自原本 PS5 的「准 RDNA2」提升至 RDNA3 架构

OpenDiT 一个专门用来加速类似Sora的DiT架构模型推理和训练的项目，GPU 加速高达 80%，内存减少 50%。

OpenDiT 一个专门用来加速类似Sora的DiT架构模型推理和训练的项目，GPU 加速高达 80%，内存减少 50%。主要特点有： GPU 加速高达 80%，内存减少 50%，内核优化包括FlashAttention、Fused AdaLN、Fused Layernorm内核。 FastSeq：一种新颖的序列并行方法，专为激活大小较大但参数大小较小的类似 DiT 的工作负载而设计。使用方便，通过一些生产线更改即可获得巨大的性能提升，用户不需要了解分布式训练的实现。支持文本到图像和文本到视频生成的完整流程。项目地址：

AMD减少RDNA 2架构高端GPU供应

AMD减少RDNA 2架构高端GPU供应据外媒报道，AMD正在减少RDNA 2架构GPU的供应，特别是高端型号，Radeon RX 6900/6950 XT已经很难找到，Radeon RX 6800和6800 XT也很少，只有个别牌子单独一两个型号在销售。有证据表明，AMD已停产了RDNA 2架构的Navi 21 GPU，随着过去半年多库存逐渐枯竭，最终相关产品也慢慢消失。事实上，在搭载Navi 31的Radeon RX 7900系列发布时，AMD仍然有较多的Navi 21芯片库存。为了给新产品上市让路，原有的Radeon RX 6800/6900系列显卡需要降价出售，这一定程度上影响了后续RDNA 3架构产品的发布，所以相隔较长时间后，AMD才推出了搭载Navi 32的Radeon RX 7700/7800系列，逐步更新主流及中高端产品线，这时候距离Radeon RX 7900系列的发布已经相隔9个月。随着现有Radeon RX 6800/6900系列显卡供应量大幅度减少，AMD也在慢慢调整产品线，比如原来仅面向中国市场销售的Radeon RX 7900 GRE在其他地方也开始销售了。不过AMD仍然保留了部分RDNA 2架构显卡，比如Radeon RX 6750 GRE，以填补产品线的空缺。AMD计划在2024年推出RDNA 4架构GPU，或许要等到下一代显卡上市，RDNA 2架构GPU的库存才会彻底消耗完。 ... PC版：手机版：

Panmnesia发布CXL协议允许AI GPU以最小的延迟利用各类内存

Panmnesia发布CXL协议允许AI GPU以最小的延迟利用各类内存目前的人工智能加速器仅限于板载内存，而制造商只能提供非常有限的 HBM。随着数据集的不断增长和对功耗的需求，业界正专注于增加更多的人工智能 GPU，而考虑到其所占用的财务和制造资源，这种方法从长远来看是不可持续的。有鉴于此，由韩国 KAIST 研究所支持的公司 Panmnesia 推出了一个 CXL IP，可以让 GPU 利用 DRAM 甚至 SSD 的内存，扩展内置的 HBM。为了实现连接，CXL 采用了 PCIe 链接，确保在消费者中得到广泛采用。不过，这也有一个问题。传统的人工智能加速器缺乏必要的子系统，无法直接连接并利用 CXL 进行内存扩展，而且 UVM（统一虚拟内存）等解决方案的速度相当慢，这就失去了初衷。不过，作为一种解决方案，Panmnesia 开发出了自己的符合 CXL 3.1 标准的 Root Complex 芯片，它有多个端口，通过 PCIe 总线连接 GPU 和外部内存，HDM（主机管理设备内存）解码器则充当连接的桥梁，管理内存分配和转换。有趣的是，Panmnesia 决定将他们的解决方案（CXL-Opt）与三星和 Meta 开发的原型产品（他们称之为"CXL-Proto"）进行基准测试。令我们惊讶的是，CXL-Opt 的往返延迟（即数据从 GPU 传输到内存再返回所需的时间）大大降低。 CXL-Opt 的延迟时间为两位数纳秒，而 CXL-Proto 的延迟时间为 250ns。除此之外，CXL-Opt 的执行时间远远少于 UVM 解决方案，因为它的 IPC 性能速度是 UVM 的 3.22 倍。Panmnesia 的解决方案可以在市场上取得巨大进步，因为它是堆叠 HBM 芯片和实现更高效解决方案之间的中介。鉴于该公司是首批拥有创新 CXL IP 的公司之一，如果这一技术获得认可，Panmnesia 将受益匪浅。 ... PC版：手机版：

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人