微软打破 Decoder-Only 架构:大幅降低 GPU 内存需求
微软打破 Decoder-Only 架构:大幅降低 GPU 内存需求 (英文) 微软 & 清华最新研究,打破 GPT 系列开创的 Decoder-Only 架构 提出 Decoder-Decoder 新型架构,名为 YOCO(You Only Cache Once)。 YOCO 仅缓存一次键值对,可大幅降低 GPU 内存需求,且保留全局注意力能力。一张图来看 YOCO 和标准 Transformer 的比较。 在处理 512K 上下文长度时,标准 Transformer 内存使用是 YOCO 的 6.4 倍,预填充延迟是 YOCO 的 30.3 倍,而 YOCO 的吞吐量提升到标准 Transformer 的 9.6 倍。
在Telegram中查看相关推荐

🔍 发送关键词来寻找群组、频道或视频。
启动SOSO机器人