壁仞科技丁云帆:做好三类工作,国产 AI 芯片也可用于大模型训练

壁仞科技丁云帆:做好三类工作,国产 AI 芯片也可用于大模型训练 在刚结束的 2024 世界人工智能大会上,壁仞科技副总裁兼 AI 软件首席架构师丁云帆在谈及计算瓶颈时表示,解决算力瓶颈问题需要从三个维度考虑:硬件集群算力、软件有效算力、异构聚合算力。“从这三个维度把相应的工作做好了,即使国产 AI 芯片单个算力看起来不够强,也能通过综合手段提升算力,满足国内大模型训练的需求。”(新浪科技)

相关推荐

封面图片

壁仞科技 AI 软件首席架构师丁云帆:国产 AI 芯片单个算力即使看起来不够强,也能通过综合手段提升集群算力

壁仞科技 AI 软件首席架构师丁云帆:国产 AI 芯片单个算力即使看起来不够强,也能通过综合手段提升集群算力 7 月 5 日消息,在上海举办的世界人工大会(WAIC)上,壁仞科技副总裁兼 AI 软件首席架构师丁云帆在论坛演讲中提到,当前解决算力瓶颈问题需要从三个维度考虑,分别是硬件集群算力、软件有效算力、异构聚合算力。他认为,做好这三个维度的工作,即使国产 AI 芯片单个算力不强,也能通过综合手段提升算力,满足国内大模型训练的需求。

封面图片

壁仞 科技首款通用GPU 芯片BR100 发布,打破全球算力纪录

壁仞 科技首款通用GPU 芯片BR100 发布,打破全球算力纪录 官方称,BR100 创出全球算力纪录,16 位浮点算力达到 1000T 以上,8 位定点算力达到 2000T 以上,单芯片峰值算力达到 PFLOPS 级别。 采用 Chiplet 技术、新一代 PCIe 5.0、率先支持 CXL 互连协议 这东西是 GPGPU,只能跑计算不能3D渲染的

封面图片

#视频 为追赶美国的芯片开发技术,中国政府承诺投入1,800亿美元以支持国内芯片行业。中国科技初创企业壁仞开发出的BR100芯片

#视频 为追赶美国的芯片开发技术,中国政府承诺投入1,800亿美元以支持国内芯片行业。中国科技初创企业壁仞开发出的BR100芯片据称已可以与英伟达强大的A100芯片相匹敌。本则视频介绍了上述两种图形处理芯片的设计与运算性能,并解读两个超级大国争夺人工智能领域主导地位之战。

封面图片

壁仞科技创始人张文:下次创业会选择不被美国制裁的餐饮业

壁仞科技创始人张文:下次创业会选择不被美国制裁的餐饮业 徐冰在讨论中指出,尽管目前中国与美国在算力上存在约10倍的差距,但这一差距有望随着资金的大量投入而逐渐缩小。他认为,随着国产芯片的快速发展,算力作为商品,其差距是可以弥补的。徐冰还提到,过去十年AI创造的价值高达2万亿美元,相当于英伟达的市值,这表明中国在AI领域仍具有巨大的发展潜力。与商汤、科大讯飞一同被列入美国商务部的“实体清单”的壁仞科技创始人张文表示,下一次创业他不想再从事AI行业,而是可能会选择进入餐饮业,一个不会被美国制裁的领域。他幽默地说:“我不知道(这个企业)对美国的麦当劳是不是有影响”。 ... PC版: 手机版:

封面图片

【新造车游戏,又要变了?】AI 日上曝光的 3000 块自研计算芯片 D1 组成的超级计算机集群 Dojo ExaPOD,马斯克

【新造车游戏,又要变了?】AI 日上曝光的 3000 块自研计算芯片 D1 组成的超级计算机集群 Dojo ExaPOD,马斯克对于计算能力的「破壁」,又将看似明确的智能电动车竞争从「三电」系统转到了「算力」上,拉到了另一个维度。 #抽屉IT

封面图片

全球首个类Sora开源复现方案来了 全面公开所有训练细节和模型权重

全球首个类Sora开源复现方案来了 全面公开所有训练细节和模型权重 还能用航拍视角,展现悬崖海岸边,海水拍打着岩石的画面。亦或是延时摄影下的浩瀚星空。自Sora发布以来,由于效果惊艳但技术细节寥寥,揭秘、复现Sora成为了开发社区最热议话题之一。比如Colossal-AI团队推出成本直降46%的Sora训练推理复现流程。短短两周时间后,该团队再次发布最新进展,复现类Sora方案,并将技术方案及详细上手教程在GitHub上免费开源。那么问题来了,复现Sora如何实现?Open-Sora 开源地址: Transformer (DiT) 。它以采用DiT架构的高质量开源文生图模型PixArt-α为基座,在此基础上引入时间注意力层,将其扩展到视频数据上。具体来看,整个架构包括一个预训练好的VAE,一个文本编码器和一个利用空间-时间注意力机制的STDiT (Spatial Temporal Diffusion Transformer)模型。其中,STDiT 每层的结构如下图所示。它采用串行的方式在二维的空间注意力模块上叠加一维的时间注意力模块,用于建模时序关系。在时间注意力模块之后,交叉注意力模块用于对齐文本的语意。与全注意力机制相比,这样的结构大大降低了训练和推理开销。与同样使用空间-时间注意力机制的 Latte模型相比,STDiT 可以更好的利用已经预训练好的图像 DiT 的权重,从而在视频数据上继续训练。STDiT结构示意图整个模型的训练和推理流程如下。据了解,在训练阶段首先采用预训练好的Variational Autoencoder (VAE)的编码器将视频数据进行压缩,然后在压缩之后的潜在空间中与文本嵌入(text embedding)一起训练STDiT扩散模型。在推理阶段,从VAE的潜在空间中随机采样出一个高斯噪声,与提示词嵌入(prompt embedding)一起输入到STDiT中,得到去噪之后的特征,最后输入到VAE的解码器,解码得到视频。模型训练流程训练复现方案在训练复现部分,Open-Sora参考了Stable Video Diffusion (SVD)。一共分为3个阶段:大规模图像预训练;大规模视频预训练;高质量视频数据微调。每个阶段都会基于前一个阶段的权重继续训练。相比于从零开始单阶段训练,多阶段训练通过逐步扩展数据,更高效地达成高质量视频生成的目标。训练方案三阶段第一阶段是大规模图像预训练。团队利用互联网上丰富的图像数据和文生图技术,先训练出一个高质量的文生图模型,将该模型作为下一阶段视频预训练的初始化权重。同时,由于目前没有高质量的时空VAE,他们采用Stable Diffusion预训练好的图像VAE。这样不仅能保障初始模型的优越性能,还能显著降低视频预训练的整体成本。第二阶段是大规模视频预训练。这一阶段主要增加模型的泛化能力,有效掌握视频的时间序列关联。它需要使用大量视频数据训练,并且保障视频素材的多样性。同时,第二阶段的模型在第一阶段文生图模型的基础上加入了时序注意力模块,用于学习视频中的时序关系。其余模块与第一阶段保持一致,并加载第一阶段权重作为初始化,同时初始化时序注意力模块输出为零,以达到更高效更快速的收敛。Colossal-AI团队使用了PixArt-alpha的开源权重作为第二阶段STDiT模型的初始化,以及采用了T5模型作为文本编码器。他们采用了256x256的小分辨率进行预训练,进一步增加了收敛速度,降低训练成本。Open-Sora生成效果(提示词:水中世界的镜头,镜头中一只海龟在珊瑚礁间悠然游弋)第三阶段是高质量视频数据微调。据介绍,这一阶段能显著提升模型的生成质量。使用的数据规模比上一阶段降低一个量级,但是视频的时长、分辨率和质量都更高。通过这种方式进行微调,能实现视频生成从短到长、从低分辨率到高分辨率、从低保真度到高保真度的高效扩展。值得一提的是,Colossal-AI还详细透露了每阶段的资源使用情况。在Open-Sora的复现流程中,他们使用了64块H800进行训练。第二阶段的训练量一共是 2808 GPU hours,约合7000美元,第三阶段的训练量是1920 GPU hours,大约4500美元。经过初步估算,整个训练方案成功把Open-Sora复现流程控制在了1万美元左右。数据预处理为了进一步降低Sora复现的门槛和复杂度,Colossal-AI团队在代码仓库中还提供了便捷的视频数据预处理脚本,让大家可以轻松启动Sora复现预训练。包括公开视频数据集下载、长视频根据镜头连续性分割为短视频片段、使用开源大语言模型LLaVA生成精细的提示词。他们提供的批量视频标题生成代码可以用两卡 3 秒标注一个视频,并且质量接近于 GPT-4V。最终得到的视频/文本对可直接用于训练。借助他们在GitHub上提供的开源代码,可以轻松地在自己的数据集上快速生成训练所需的视频/文本对,显著降低了启动Sora复现项目的技术门槛和前期准备。高效训练加持除此之外,Colossal-AI团队还提供了训练加速方案。通过算子优化和混合并行等高效训练策略,在处理64帧、512x512分辨率视频的训练中,实现了1.55倍的加速效果。同时,得益于Colossal-AI的异构内存管理系统,在单台服务器上(8H800)可以无阻碍地进行1分钟的1080p高清视频训练任务。而且团队还发现STDiT模型架构在训练时也展现出卓越的高效性。和采用全注意力机制的DiT相比,随着帧数的增加,STDiT实现了高达5倍的加速效果,这在处理长视频序列等现实任务中尤为关键。最后,团队还放出了更多Open-Sora的生成效果。团队和量子位透露,他们将长期更新优化Open-Sora的相关解决方案和动态。未来将使用更多视频训练数据,以生成更高质量、更长时长的视频内容,并支持多分辨率特性。实际应用方面,团队透露将推进在电影、游戏、广告等领域落地。感兴趣的开发者们,可访问GitHub项目了解更多~Open-Sora 开源地址: Scalable Diffusion Models with Transformers[2] PixArt-α: Fast Training of Diffusion Transformer for Photorealistic Text-to-Image Synthesis[3] Stable Video Diffusion: Scaling Latent Video Diffusion Models to Large Datasets[4] Latte: Latent Diffusion Transformer for Video Generation[5] ... PC版: 手机版:

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人