OpenDiT 一个专门用来加速类似Sora的DiT架构模型推理和训练的项目,GPU 加速高达 80%,内存减少 50%。

OpenDiT 一个专门用来加速类似Sora的DiT架构模型推理和训练的项目,GPU 加速高达 80%,内存减少 50%。 主要特点有: GPU 加速高达 80%,内存减少 50%,内核优化包括FlashAttention、Fused AdaLN、Fused Layernorm内核。 FastSeq:一种新颖的序列并行方法,专为激活大小较大但参数大小较小的类似 DiT 的工作负载而设计。 使用方便,通过一些生产线更改即可获得巨大的性能提升,用户不需要了解分布式训练的实现。 支持文本到图像和文本到视频生成的完整流程。 项目地址:

相关推荐

封面图片

:全新的文本转语音(TTS)解决方案,具有高度自定义和灵活性,支持Linux和Windows系统,需要2GB的GPU内存进行推理

:全新的文本转语音(TTS)解决方案,具有高度自定义和灵活性,支持Linux和Windows系统,需要2GB的GPU内存进行推理,使用Flash-Attn进行推理和训练,支持VQGAN和Text2Semantic模型

封面图片

Google:引领AI推理工作量的是CPU而非GPU

Google:引领AI推理工作量的是CPU而非GPU 人工智能的生命周期分为两个部分:训练和推理。在训练过程中,需要大量的计算能力和巨大的内存容量,以便将不断扩大的人工智能模型装入内存。最新的模型,如 GPT-4 和 Gemini,包含数十亿个参数,需要数千个 GPU 或其他加速器并行工作,才能高效地进行训练。另一方面,推理所需的计算强度较低,但仍能从加速中获益。在推理过程中,会对预先训练好的模型进行优化和部署,以便对新数据进行预测。虽然推理所需的计算量比训练少,但延迟和吞吐量对实时推理至关重要。Google发现,虽然 GPU 是训练阶段的理想选择,但模型通常在 CPU 上进行优化和推理。这意味着,有些客户出于各种原因选择 CPU 作为人工智能推理的媒介。这可能是成本和可用性的问题。与高端 GPU 或专门的人工智能加速器相比,CPU 往往更便宜,也更容易获得。对于许多应用而言,CPU 能以较低的成本提供足够的推理性能。CPU 还具有灵活性。由于大多数系统已经配备了 CPU,它们为较小的人工智能模型提供了便捷的部署途径。GPU 通常需要专门的库和驱动程序,而基于 CPU 的推理可以利用现有的基础设施。这使得将人工智能集成到现有产品和工作流程中变得更加简单。延迟和吞吐量的权衡也会发挥作用。GPU 擅长大规模并行推理吞吐量。但 CPU 通常可以为实时请求提供更低的延迟。对于需要亚秒级响应的在线推荐等应用,CPU 推理可能是首选。此外,CPU 对推理的优化进展迅速。在更快的时钟、更多的内核以及英特尔 AVX-512 和 AMX 等新指令的推动下,性能不断提高,仅靠 CPU 就能流畅运行人工智能工作负载,如果服务器配置了不止一个插槽,意味着有更多的人工智能引擎存在,服务器就能高效处理数十亿参数大小的人工智能模型,则性能尤其出色。英特尔指出,一般来说,参数不超过200 亿的模型在 CPU 上可以正常运行,而更大的模型则必须使用专门的加速器。像 GPT-4、Claude 和 Gemini 这样的人工智能模型都是庞大的模型,参数规模可达一万亿以上。然而,它们是多模式的,也就是说,它们处理文本和视频。现实世界中的企业工作负载可能是一个人工智能模型推断公司的本地文档,以回答客户支持问题。对于这种解决方案来说,运行 GPT-4 这样的模型就显得多余了。相比之下,像LLAMA 2或 Mistral 这样小得多的模型可以很好地实现类似目的,而不需要第三方 API 访问,只需在本地或云服务器上运行几个 CPU 即可。这就降低了总体拥有成本(TCO),简化了人工智能管道。 ... PC版: 手机版:

封面图片

AMD量产Alveo V80计算加速卡:板载32GB内存 零售价近70000元

AMD量产Alveo V80计算加速卡:板载32GB内存 零售价近70000元 这款加速卡针对高性能计算(HPC)、数据分析、金融、网络安全和计算存储等领域,能够通过FPGA硬件灵活优化工作负载,提供强大的计算支持。Alveo V80加速卡基于7nm工艺的AMD Versal XCV80 HBM系列自适应SoC,具备2574K个LUT逻辑单元和10848个DSP计算逻辑片。该卡配备了两个16GB的HBM2E内存堆栈,提供高达819GB/s的内存带宽,并且支持通过卡上DDR4插槽扩充至32GB内存规模。此外,Alveo V80还具备4个QSFP56网络接口,每个接口支持200G网络,相较于仅支持PCIe连接的GPU,提供了更充足的互联带宽。该卡支持PCIe Gen4x16单端口或Gen5x8双端口,并在尾部提供了3个MCIO扩展端口,以适应不同的系统需求。 ... PC版: 手机版:

封面图片

RTX 50"Blackwell"GB200 GPU将保留与Ada相同的内存总线 最高达384位

RTX 50"Blackwell"GB200 GPU将保留与Ada相同的内存总线 最高达384位 NVIDIA GeForce RTX 40"Ada"图形处理器阵容目前包括以下五个 SKU:AD102(384 位)AD103(256 位)AD104(192 位)AD106(128 位)AD107(128 位)我们看到NVIDIA的入门级 AD107 GPU SKU 低至 96 位,但这只是少数几种移动配置。GeForce RTX 4090 和 RTX 6000 Ada 是该阵容的领头羊,它们都配备了 384 位总线接口和 24/48 GB 的显存容量。联系起第一代GDDR7 芯片上看到的情况,NVIDIA 有可能会为其下一代 GB200"Blackwell"游戏 GPU(GeForce RTX 50 系列)保留相同的显存配置。我们可以期待以下情况:GB202(384 位)GB203(256 位)GB204(192 位)GB206(128 位)GB107(128 位)如果NVIDIA继续使用时钟频率为 32 Gbps 的标准 16 Gb(2 GB)内存模块,那么产品阵容将如下所示:GB202- 384 位 / 32 Gbps / 24 GB(最大内存)/ 1536 GB/秒(最大带宽)GB203- 256 位 / 32 Gbps / 16 GB(最大内存)/ 1024 GB/秒(最大带宽)GB204- 192 位 / 32 Gbps / 12 GB(最大内存)/ 768.0 GB/秒(最大带宽)GB206- 128 位 / 32 Gbps / 8 GB(最大内存)/ 512.0 GB/秒(最大带宽)GB207- 128 位 / 32 Gbps / 8 GB(最大内存)/ 512.0 GB/秒(最大带宽)上述配置只是初步配置,众所周知,英伟达在其入门级 SKU 上会使用较低的内存时钟。此外,上述最大内存仅基于单面配置。NVIDIA GeForce RTX 4060 Ti 16 GB 采用了双面 DRAM 芯片,因此,如果情况确实如此,NVIDIA可以将每款 GPU 的双倍内存版本并排提供,或者从一开始就作为标准配置提供。如果英伟达坚持将 24 GB 作为最大 VRAM,那么这将是第三款具有如此容量的旗舰型号,之前的是 GeForce RTX 3090 和现有的 GeForce RTX 4090。根据之前的传言,NVIDIA GeForce RTX 50 "Blackwell "游戏 GPU 将采用台积电 3nm 工艺节点制造,支持 DisplayPort 2.1 以及与现有产品系列类似的 FE Founders Edition 冷却系统,但会有一些新的升级。下一代系列预计将于 2024 年底推出,届时距离 RTX 40 "SUPER "系列的发布将近一年,距离 RTX 40 "Ada "系列的发布也将近两年。 ... PC版: 手机版:

封面图片

NVIDIA B200 GPU加速器明年到来 功耗高达1000W

NVIDIA B200 GPU加速器明年到来 功耗高达1000W B100之后,还有更强大的升级版B200,一如现在H100、H200的关系。戴尔首席运营官兼副董事长在最近的一次会议中确认了B200的存在,发布时间在明年。他没有披露更具体的规格,比如升级之处,但声称戴尔有能力搞定单颗GPU 1000W的功耗,甚至不需要液冷,这无疑是在暗示B200的功耗将大幅提高。相比之下,H100 SMX版本的峰值功耗为700W。NVIDIA GTC 2024图形技术大会将于3月18-21日举行,必然会披露新一代GPU加速器的情况,甚至有可能正式宣布。 ... PC版: 手机版:

封面图片

苹果M4 GPU跑分公布 相比M2高出约20%

苹果M4 GPU跑分公布 相比M2高出约20% 访问:Saily - 使用eSIM实现手机全球数据漫游 安全可靠 源自NordVPN 据悉,M4基于台积电3nm工艺制程打造,晶体管数量为280亿个,该芯片具有10个内核,分别是4个提供单线程性能与响应能力的性能内核,和6个提供多线程性能与能效的效率内核。相较于M2芯片,M4的CPU性能提升了高达1.5倍。从GPU上看,该芯片拥有一个全新的10核GPU,因为采用了苹果的动态缓存功能,所以能够在硬件中实时动态地分配本地内存,从而大幅提高专业和游戏应用的性能。另外,基于“硬件加速的光线追踪技术和网格着色功能”,也让GPU具备超强的渲染能力。 ... PC版: 手机版:

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人