微软打破 Decoder-Only 架构:大幅降低 GPU 内存需求

微软打破 Decoder-Only 架构:大幅降低 GPU 内存需求 (英文) 微软 & 清华最新研究,打破 GPT 系列开创的 Decoder-Only 架构 提出 Decoder-Decoder 新型架构,名为 YOCO(You Only Cache Once)。 YOCO 仅缓存一次键值对,可大幅降低 GPU 内存需求,且保留全局注意力能力。一张图来看 YOCO 和标准 Transformer 的比较。 在处理 512K 上下文长度时,标准 Transformer 内存使用是 YOCO 的 6.4 倍,预填充延迟是 YOCO 的 30.3 倍,而 YOCO 的吞吐量提升到标准 Transformer 的 9.6 倍。

相关推荐

封面图片

微软新专利能降低光线追踪对GPU内存的需求,让8GB显卡重回游戏舞台

微软新专利能降低光线追踪对GPU内存的需求,让8GB显卡重回游戏舞台 微软发布了一项新专利,描述了一项能够显著减少光线追踪对GPU内存影响的技术。光线追踪是一种渲染技术,可以通过模拟光的物理行为来创建真实的光照效果,但它对GPU资源的需求非常高,尤其是内存。这项新的专利描述了一种使光线追踪更有效率的方法,这样一来,那些内存较小的显卡,比如只有8GB视频内存的,也能再次用于游戏和其他高端图形任务。这一创新可以对光线追踪技术的整体性能和可获得性产生深远影响,可能允许更多用户在不需要高端昂贵硬件的情况下,享受其带来的好处。

封面图片

微软为XSS游戏开发者释放数百兆可用内存,降低优化难度

微软为XSS游戏开发者释放数百兆可用内存,降低优化难度 微软新推出的新版本 Xbox 游戏开发工具包,为开发者在 Xbox Series S 主机上释放出额外的数百兆内存用于游戏开发,从而在内存受限的情况下提升图形性能

封面图片

ℹ因微软大幅降低回报奖金,研究人员直接公开最新Windows 系统权限漏洞#ClaireC

ℹ因微软大幅降低回报奖金,研究人员直接公开最新Windows 系统权限漏洞#ClaireC 近日对于系统研究人员最丧气的新闻,莫过于微软提供给漏洞回报者的奖金大幅度缩水这件事情,让长期以来对系统深入帮忙查找毛病的研究者动力大减,近...

封面图片

OpenDiT 一个专门用来加速类似Sora的DiT架构模型推理和训练的项目,GPU 加速高达 80%,内存减少 50%。

OpenDiT 一个专门用来加速类似Sora的DiT架构模型推理和训练的项目,GPU 加速高达 80%,内存减少 50%。 主要特点有: GPU 加速高达 80%,内存减少 50%,内核优化包括FlashAttention、Fused AdaLN、Fused Layernorm内核。 FastSeq:一种新颖的序列并行方法,专为激活大小较大但参数大小较小的类似 DiT 的工作负载而设计。 使用方便,通过一些生产线更改即可获得巨大的性能提升,用户不需要了解分布式训练的实现。 支持文本到图像和文本到视频生成的完整流程。 项目地址:

封面图片

Panmnesia发布CXL协议 允许AI GPU以最小的延迟利用各类内存

Panmnesia发布CXL协议 允许AI GPU以最小的延迟利用各类内存 目前的人工智能加速器仅限于板载内存,而制造商只能提供非常有限的 HBM。随着数据集的不断增长和对功耗的需求,业界正专注于增加更多的人工智能 GPU,而考虑到其所占用的财务和制造资源,这种方法从长远来看是不可持续的。有鉴于此,由韩国 KAIST 研究所支持的公司 Panmnesia 推出了一个 CXL IP,可以让 GPU 利用 DRAM 甚至 SSD 的内存,扩展内置的 HBM。为了实现连接,CXL 采用了 PCIe 链接,确保在消费者中得到广泛采用。不过,这也有一个问题。传统的人工智能加速器缺乏必要的子系统,无法直接连接并利用 CXL 进行内存扩展,而且 UVM(统一虚拟内存)等解决方案的速度相当慢,这就失去了初衷。不过,作为一种解决方案,Panmnesia 开发出了自己的符合 CXL 3.1 标准的 Root Complex 芯片,它有多个端口,通过 PCIe 总线连接 GPU 和外部内存,HDM(主机管理设备内存)解码器则充当连接的桥梁,管理内存分配和转换。有趣的是,Panmnesia 决定将他们的解决方案(CXL-Opt)与三星和 Meta 开发的原型产品(他们称之为"CXL-Proto")进行基准测试。令我们惊讶的是,CXL-Opt 的往返延迟(即数据从 GPU 传输到内存再返回所需的时间)大大降低。 CXL-Opt 的延迟时间为两位数纳秒,而 CXL-Proto 的延迟时间为 250ns。除此之外,CXL-Opt 的执行时间远远少于 UVM 解决方案,因为它的 IPC 性能速度是 UVM 的 3.22 倍。Panmnesia 的解决方案可以在市场上取得巨大进步,因为它是堆叠 HBM 芯片和实现更高效解决方案之间的中介。鉴于该公司是首批拥有创新 CXL IP 的公司之一,如果这一技术获得认可,Panmnesia 将受益匪浅。 ... PC版: 手机版:

封面图片

传 Sony PlayStation 5 Pro 的处理器 CPU 仅拉高频率但 GPU 大幅强化

传 Sony PlayStation 5 Pro 的处理器 CPU 仅拉高频率但 GPU 大幅强化 业界普遍认为CPU仍维持Zen 2架构,GPU将自原本 PS5 的「准 RDNA2」提升至 RDNA3 架构

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人