微软打破 Decoder-Only 架构:大幅降低 GPU 内存需求
微软打破Decoder-Only架构:大幅降低GPU内存需求https://www.ithome.com/0/767/340.htmhttps://arxiv.org/abs/2405.05254(英文)微软&清华最新研究,打破GPT系列开创的Decoder-Only架构——提出Decoder-Decoder新型架构,名为YOCO(YouOnlyCacheOnce)。YOCO仅缓存一次键值对,可大幅降低GPU内存需求,且保留全局注意力能力。一张图来看YOCO和标准Transformer的比较。在处理512K上下文长度时,标准Transformer内存使用是YOCO的6.4倍,预填充延迟是YOCO的30.3倍,而YOCO的吞吐量提升到标准Transformer的9.6倍。
在Telegram中查看相关推荐
🔍 发送关键词来寻找群组、频道或视频。
启动SOSO机器人