微软打破 Decoder-Only 架构:大幅降低 GPU 内存需求

微软打破 Decoder-Only 架构:大幅降低 GPU 内存需求 (英文) 微软 & 清华最新研究,打破 GPT 系列开创的 Decoder-Only 架构 提出 Decoder-Decoder 新型架构,名为 YOCO(You Only Cache Once)。 YOCO 仅缓存一次键值对,可大幅降低 GPU 内存需求,且保留全局注意力能力。一张图来看 YOCO 和标准 Transformer 的比较。 在处理 512K 上下文长度时,标准 Transformer 内存使用是 YOCO 的 6.4 倍,预填充延迟是 YOCO 的 30.3 倍,而 YOCO 的吞吐量提升到标准 Transformer 的 9.6 倍。

相关推荐

封面图片

微软新专利能降低光线追踪对GPU内存的需求,让8GB显卡重回游戏舞台

微软新专利能降低光线追踪对GPU内存的需求,让8GB显卡重回游戏舞台 微软发布了一项新专利,描述了一项能够显著减少光线追踪对GPU内存影响的技术。光线追踪是一种渲染技术,可以通过模拟光的物理行为来创建真实的光照效果,但它对GPU资源的需求非常高,尤其是内存。这项新的专利描述了一种使光线追踪更有效率的方法,这样一来,那些内存较小的显卡,比如只有8GB视频内存的,也能再次用于游戏和其他高端图形任务。这一创新可以对光线追踪技术的整体性能和可获得性产生深远影响,可能允许更多用户在不需要高端昂贵硬件的情况下,享受其带来的好处。

封面图片

微软为XSS游戏开发者释放数百兆可用内存,降低优化难度

微软为XSS游戏开发者释放数百兆可用内存,降低优化难度 微软新推出的新版本 Xbox 游戏开发工具包,为开发者在 Xbox Series S 主机上释放出额外的数百兆内存用于游戏开发,从而在内存受限的情况下提升图形性能

封面图片

ℹ因微软大幅降低回报奖金,研究人员直接公开最新Windows 系统权限漏洞#ClaireC

ℹ因微软大幅降低回报奖金,研究人员直接公开最新Windows 系统权限漏洞#ClaireC 近日对于系统研究人员最丧气的新闻,莫过于微软提供给漏洞回报者的奖金大幅度缩水这件事情,让长期以来对系统深入帮忙查找毛病的研究者动力大减,近...

封面图片

OpenDiT 一个专门用来加速类似Sora的DiT架构模型推理和训练的项目,GPU 加速高达 80%,内存减少 50%。

OpenDiT 一个专门用来加速类似Sora的DiT架构模型推理和训练的项目,GPU 加速高达 80%,内存减少 50%。 主要特点有: GPU 加速高达 80%,内存减少 50%,内核优化包括FlashAttention、Fused AdaLN、Fused Layernorm内核。 FastSeq:一种新颖的序列并行方法,专为激活大小较大但参数大小较小的类似 DiT 的工作负载而设计。 使用方便,通过一些生产线更改即可获得巨大的性能提升,用户不需要了解分布式训练的实现。 支持文本到图像和文本到视频生成的完整流程。 项目地址:

封面图片

传 Sony PlayStation 5 Pro 的处理器 CPU 仅拉高频率但 GPU 大幅强化

传 Sony PlayStation 5 Pro 的处理器 CPU 仅拉高频率但 GPU 大幅强化 业界普遍认为CPU仍维持Zen 2架构,GPU将自原本 PS5 的「准 RDNA2」提升至 RDNA3 架构

封面图片

Panmnesia发布CXL协议 允许AI GPU以最小的延迟利用各类内存

Panmnesia发布CXL协议 允许AI GPU以最小的延迟利用各类内存 目前的人工智能加速器仅限于板载内存,而制造商只能提供非常有限的 HBM。随着数据集的不断增长和对功耗的需求,业界正专注于增加更多的人工智能 GPU,而考虑到其所占用的财务和制造资源,这种方法从长远来看是不可持续的。有鉴于此,由韩国 KAIST 研究所支持的公司 Panmnesia 推出了一个 CXL IP,可以让 GPU 利用 DRAM 甚至 SSD 的内存,扩展内置的 HBM。为了实现连接,CXL 采用了 PCIe 链接,确保在消费者中得到广泛采用。不过,这也有一个问题。传统的人工智能加速器缺乏必要的子系统,无法直接连接并利用 CXL 进行内存扩展,而且 UVM(统一虚拟内存)等解决方案的速度相当慢,这就失去了初衷。不过,作为一种解决方案,Panmnesia 开发出了自己的符合 CXL 3.1 标准的 Root Complex 芯片,它有多个端口,通过 PCIe 总线连接 GPU 和外部内存,HDM(主机管理设备内存)解码器则充当连接的桥梁,管理内存分配和转换。有趣的是,Panmnesia 决定将他们的解决方案(CXL-Opt)与三星和 Meta 开发的原型产品(他们称之为"CXL-Proto")进行基准测试。令我们惊讶的是,CXL-Opt 的往返延迟(即数据从 GPU 传输到内存再返回所需的时间)大大降低。 CXL-Opt 的延迟时间为两位数纳秒,而 CXL-Proto 的延迟时间为 250ns。除此之外,CXL-Opt 的执行时间远远少于 UVM 解决方案,因为它的 IPC 性能速度是 UVM 的 3.22 倍。Panmnesia 的解决方案可以在市场上取得巨大进步,因为它是堆叠 HBM 芯片和实现更高效解决方案之间的中介。鉴于该公司是首批拥有创新 CXL IP 的公司之一,如果这一技术获得认可,Panmnesia 将受益匪浅。 ... PC版: 手机版:

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人