OpenDiT 一个专门用来加速类似Sora的DiT架构模型推理和训练的项目,GPU 加速高达 80%,内存减少 50%。#ai

OpenDiT一个专门用来加速类似Sora的DiT架构模型推理和训练的项目,GPU加速高达80%,内存减少50%。主要特点有:GPU加速高达80%,内存减少50%,内核优化包括FlashAttention、FusedAdaLN、FusedLayernorm内核。FastSeq:一种新颖的序列并行方法,专为激活大小较大但参数大小较小的类似DiT的工作负载而设计。使用方便,通过一些生产线更改即可获得巨大的性能提升,用户不需要了解分布式训练的实现。支持文本到图像和文本到视频生成的完整流程。项目地址:

相关推荐

封面图片

Google:引领AI推理工作量的是CPU而非GPU

Google:引领AI推理工作量的是CPU而非GPU人工智能的生命周期分为两个部分:训练和推理。在训练过程中,需要大量的计算能力和巨大的内存容量,以便将不断扩大的人工智能模型装入内存。最新的模型,如GPT-4和Gemini,包含数十亿个参数,需要数千个GPU或其他加速器并行工作,才能高效地进行训练。另一方面,推理所需的计算强度较低,但仍能从加速中获益。在推理过程中,会对预先训练好的模型进行优化和部署,以便对新数据进行预测。虽然推理所需的计算量比训练少,但延迟和吞吐量对实时推理至关重要。Google发现,虽然GPU是训练阶段的理想选择,但模型通常在CPU上进行优化和推理。这意味着,有些客户出于各种原因选择CPU作为人工智能推理的媒介。这可能是成本和可用性的问题。与高端GPU或专门的人工智能加速器相比,CPU往往更便宜,也更容易获得。对于许多应用而言,CPU能以较低的成本提供足够的推理性能。CPU还具有灵活性。由于大多数系统已经配备了CPU,它们为较小的人工智能模型提供了便捷的部署途径。GPU通常需要专门的库和驱动程序,而基于CPU的推理可以利用现有的基础设施。这使得将人工智能集成到现有产品和工作流程中变得更加简单。延迟和吞吐量的权衡也会发挥作用。GPU擅长大规模并行推理吞吐量。但CPU通常可以为实时请求提供更低的延迟。对于需要亚秒级响应的在线推荐等应用,CPU推理可能是首选。此外,CPU对推理的优化进展迅速。在更快的时钟、更多的内核以及英特尔AVX-512和AMX等新指令的推动下,性能不断提高,仅靠CPU就能流畅运行人工智能工作负载,如果服务器配置了不止一个插槽,意味着有更多的人工智能引擎存在,服务器就能高效处理数十亿参数大小的人工智能模型,则性能尤其出色。英特尔指出,一般来说,参数不超过200亿的模型在CPU上可以正常运行,而更大的模型则必须使用专门的加速器。像GPT-4、Claude和Gemini这样的人工智能模型都是庞大的模型,参数规模可达一万亿以上。然而,它们是多模式的,也就是说,它们处理文本和视频。现实世界中的企业工作负载可能是一个人工智能模型推断公司的本地文档,以回答客户支持问题。对于这种解决方案来说,运行GPT-4这样的模型就显得多余了。相比之下,像LLAMA2或Mistral这样小得多的模型可以很好地实现类似目的,而不需要第三方API访问,只需在本地或云服务器上运行几个CPU即可。这就降低了总体拥有成本(TCO),简化了人工智能管道。...PC版:https://www.cnbeta.com.tw/articles/soft/1422284.htm手机版:https://m.cnbeta.com.tw/view/1422284.htm

封面图片

可扩展性是DiT论文的核心主题。首先,经过优化的DiT在每Flop的实际运行时间上比UNet要快得多。更重要的是,Sora证明了

可扩展性是DiT论文的核心主题。首先,经过优化的DiT在每Flop的实际运行时间上比UNet要快得多。更重要的是,Sora证明了DiT的扩展法则不仅适用于图像,现在也适用于视频——Sora复制了在DiT中观察到的视觉扩展行为。猜测:在Sora报告中,第一个视频的质量相当差,我怀疑它使用的是基础模型尺寸。粗略计算一下:DiTXL/2的GFLOPs是B/2模型的5倍,所以最终16倍计算模型可能是3倍DiT-XL模型的大小,这意味着Sora可能有约3亿参数——如果这是真的,这并非一个不合理的模型大小。这可能意味着,训练Sora模型可能不需要像人们预期的那样多的GPU——我预计未来的迭代速度会非常快。关键的收获来自于“新兴模拟能力”部分。在Sora出现之前,人们不清楚是否可以自然形成长篇连贯性,或者是否需要复杂的以主题为导向的生成流程,甚至物理模拟器。OpenAI已经证明,尽管不完美,但这些行为可以通过端到端训练来实现。然而,有两个关键点尚未被讨论。1.训练数据:关于训练数据的来源和构建完全没有提及,这可能意味着数据很可能是Sora成功的关键因素。猜测:关于来自游戏引擎的数据已有许多猜测。我也预计可能会包括电影、纪录片、电影长镜头等。质量非常重要。我非常好奇Sora从哪里获取这些数据的(肯定不仅仅是YouTube,对吧?)。2.(自回归的)长视频生成:Sora的一大突破是能够生成非常长的视频。制作2秒视频和1分钟视频之间的差异是巨大的。在Sora中,这可能是通过联合帧预测实现的,允许自回归采样,但一个主要的挑战是如何解决错误累积,并在时间上保持质量和一致性。是需要一个非常长的(并且是双向的)上下文来进行条件化?还是说仅仅通过扩大规模就可以减少问题?这些技术细节可能非常重要,希望未来能够被逐渐揭示。扩散变换器(DiT)在Sora中的应用效果非常出色。我们纽约大学的团队最近发布了一款新的DiT模型,名为SiT。它保持了与DiT完全相同的架构,但在性能上有所提升,收敛速度更快。我对它在视频生成方面的表现也非常感兴趣!DiT论文地址:

封面图片

NVIDIA B200 GPU加速器明年到来 功耗高达1000W

NVIDIAB200GPU加速器明年到来功耗高达1000WB100之后,还有更强大的升级版B200,一如现在H100、H200的关系。戴尔首席运营官兼副董事长在最近的一次会议中确认了B200的存在,发布时间在明年。他没有披露更具体的规格,比如升级之处,但声称戴尔有能力搞定单颗GPU1000W的功耗,甚至不需要液冷,这无疑是在暗示B200的功耗将大幅提高。相比之下,H100SMX版本的峰值功耗为700W。NVIDIAGTC2024图形技术大会将于3月18-21日举行,必然会披露新一代GPU加速器的情况,甚至有可能正式宣布。...PC版:https://www.cnbeta.com.tw/articles/soft/1422180.htm手机版:https://m.cnbeta.com.tw/view/1422180.htm

封面图片

NVIDIA CPU+GPU超级芯片终于量产 搭配144TB内存

NVIDIACPU+GPU超级芯片终于量产搭配144TB内存再加上GraceCPU、HopperGPU、AdaLovelaceGPU、BlueFieldDPU等全套系统方案,NVIDIA现在已经有400多种配置,可满足市场对生成式AI的激增需求。欧洲和美国的超大规模云服务商、超算中心,将会成为接入GH200系统的首批客户。同时,黄仁勋还公布了GraceHopper的更多细节,尤其是它的CPU、GPU之间使用NVLink-C2C互连技术,总带宽高达900GB/s,相比传统的PCIe5.0通道超出足足7倍,能够满足要求最苛刻的生成式AI和HPC应用,功耗也降低了超过80%。GraceCPU拥有72个Armv9CPU核心,缓存容量198MB,支持LPDDR5XECC内存,带宽高达1TB/s,还支持PCIe5.0。HopperGPU则采用台积电4nm定制工艺,集成多达800亿个晶体管,号称世界上最先进的芯片,集成18432个CUDA核心、576个Tenor核心、60MB二级缓存,支持6144-bitHBM3/2e高带宽内存。同时,NVIDIA宣布推出一款新型大内存AI超级计算机“DGXGH200”,可用于开发面向生成式AI语言应用、推荐系统和数据分析工作负载的下一代大模型。它配备了多达256颗GH200GraceHopper超级芯片,彼此NVLinkSwitchSystem互相连接,带宽提升48倍以上,对外可作为单个GPU使用,浮点性能高达1PFlops(每秒1千万亿次浮点计算)。同时还有144TB共享内存,相比2020年的上一代DGXA100增大了近500倍。...PC版:https://www.cnbeta.com.tw/articles/soft/1362341.htm手机版:https://m.cnbeta.com.tw/view/1362341.htm

封面图片

苹果M4 GPU跑分公布 相比M2高出约20%

苹果M4GPU跑分公布相比M2高出约20%访问:Saily-使用eSIM实现手机全球数据漫游安全可靠源自NordVPN据悉,M4基于台积电3nm工艺制程打造,晶体管数量为280亿个,该芯片具有10个内核,分别是4个提供单线程性能与响应能力的性能内核,和6个提供多线程性能与能效的效率内核。相较于M2芯片,M4的CPU性能提升了高达1.5倍。从GPU上看,该芯片拥有一个全新的10核GPU,因为采用了苹果的动态缓存功能,所以能够在硬件中实时动态地分配本地内存,从而大幅提高专业和游戏应用的性能。另外,基于“硬件加速的光线追踪技术和网格着色功能”,也让GPU具备超强的渲染能力。...PC版:https://www.cnbeta.com.tw/articles/soft/1430332.htm手机版:https://m.cnbeta.com.tw/view/1430332.htm

封面图片

导入CDNA3架构、192GB记忆体,AMD新资料中心GPU来了

导入CDNA3架构、192GB记忆体,AMD新资料中心GPU来了https://www.ithome.com.tw/review/160523相较于上一代产品MI250X,MI300X的运算单元数量增加幅度逼近40%(304个对上220个),记忆体容量达到1.5倍(192GBHBM3对上128GBHBM2e),记忆体最大频宽为1.7倍(5.3TB/s对上3.2TB/s);在资料型别上,MI300X可支援FP8与稀疏(sparsity)等数学计算,种种新增与强化特色,皆为了支撑AI与高效能运算类型的工作负载而来。———生成式AI就绪英特尔发布第五代至强可扩展处理器https://www.ithome.com/0/741/410.htm第五代英特尔®至强®可扩展处理器的核心数量增加至64个,配备了高达320MB的L3缓存和128MB的L2缓存。不论单核性能还是核心数量,它相比以往的至强都有了明显提升。在最终性能指标上,与上代产品相比,在相同功耗下平均性能提升21%,内存带宽提升高达16%,三级缓存容量提升到了原来的近3倍。;更为重要的是,第五代至强®可扩展处理器的每个内核均具备AI加速功能,完全有能力处理要求严苛的AI工作负载。与上代相比,其训练性能提升多达29%,推理能力提升高达42%。

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人