Transformer后继有模！MSRA提出全新大模型基础架构：推理速度8倍提升，内存占用减少70% #抽屉IT

用KV缓存加速GPT模型的推理过程，用KV(Key-Value)缓存来提高Transformer模型推理的速度 |

OpenDiT 一个专门用来加速类似Sora的DiT架构模型推理和训练的项目，GPU 加速高达 80%，内存减少 50%。

OpenDiT 一个专门用来加速类似Sora的DiT架构模型推理和训练的项目，GPU 加速高达 80%，内存减少 50%。主要特点有： GPU 加速高达 80%，内存减少 50%，内核优化包括FlashAttention、Fused AdaLN、Fused Layernorm内核。 FastSeq：一种新颖的序列并行方法，专为激活大小较大但参数大小较小的类似 DiT 的工作负载而设计。使用方便，通过一些生产线更改即可获得巨大的性能提升，用户不需要了解分布式训练的实现。支持文本到图像和文本到视频生成的完整流程。项目地址：

：大语言模型裁剪工具。通过对大语言模型的冗余词表进行裁剪，减少模型参数量，降低显存占用，提升训练速度，并且能够保留预训练中学习到

：大语言模型裁剪工具。通过对大语言模型的冗余词表进行裁剪，减少模型参数量，降低显存占用，提升训练速度，并且能够保留预训练中学习到的知识。大语言模型(LLM, Large Language Model)犹如雨后春笋般，其虽然效果惊艳，但参数量巨大，让普通玩家望而却步。如今的大语言模型大多为多语种大预言模型(Multilingual Large Language Model)，如LLaMA、mT5、Bloom等，其词表规模巨大，占据非常大部分的模型参数，如Bloom具有25万词表。在训练模型时，词表权重将会消耗非常大的显存，降低训练速度，产生OOM的现象。但在许多下游任务中，一般只会用到一两种语言，例如在中文场景中，一般只会用到中英文。我们可以对大语言模型的词表进行裁剪，只留下所需的部分，这样不仅能够充分保留模型的预训练知识，并且能够使用更少的显卡进行下游任务的finetune，提升训练效率。 | #工具

面向计算机视觉的Transformer：架构、技巧与提升 | #计算机视觉

内存占用减少 3.7%，开发者发布补丁集减少编译 Linux 内核时的最大内存使用量 - IT之家

Snap Video 一种基于transformer的视频生成模型架构，其训练速度比 U-Net 快 3.31 倍（推理速度约快

Snap Video 一种基于transformer的视频生成模型架构，其训练速度比 U-Net 快 3.31 倍（推理速度约快 4.5 倍）。这个架构可以高效训练一个包含数十亿参数的文本到视频模型。（arxiv 的 PDF 转 HTML 居然又好了）项目地址：

相关推荐

用KV缓存加速GPT模型的推理过程，用KV(Key-Value)缓存来提高Transformer模型推理的速度 |

OpenDiT 一个专门用来加速类似Sora的DiT架构模型推理和训练的项目，GPU 加速高达 80%，内存减少 50%。

：大语言模型裁剪工具。通过对大语言模型的冗余词表进行裁剪，减少模型参数量，降低显存占用，提升训练速度，并且能够保留预训练中学习到

面向计算机视觉的Transformer：架构、技巧与提升 | #计算机视觉

内存占用减少 3.7%，开发者发布补丁集减少编译 Linux 内核时的最大内存使用量 - IT之家

Snap Video 一种基于transformer的视频生成模型架构，其训练速度比 U-Net 快 3.31 倍（推理速度约快