卧槽阿里这篇新论文好厉害 Animate Anyone,输入单张图片就能生成任意动作的视频!

卧槽阿里这篇新论文好厉害 Animate Anyone,输入单张图片就能生成任意动作的视频! 建议大家点进项目地址感受一下生成质量,可控性和连续性都高到离谱而且还高清,你能想象到无数应用场景。 ▶ 项目地址: 明显感觉到AI视频所需要的一切爆发条件都准备好了,坐等诸神之战下一阶段开打。 #AI视频# by

相关推荐

封面图片

接上条动态,我刚让 New Bing 帮我读的就是这篇阿里最新发布的论文 Composer,一个很能打的图像生成模型。

接上条动态,我刚让 New Bing 帮我读的就是这篇阿里最新发布的论文 Composer,一个很能打的图像生成模型。 它不仅拥有主流模型的生成能力,还有基于描述词、深度图、蒙版等的编辑能力。 更厉害的是(也是这次的主打功能),它能对这些编辑条件进行混搭使用,让AI编辑能力直线上升。(用调色板改图的功能我实在太爱了…[苦涩]) ▶ ▶(项目地址还有很多案例,记得点进去看看) 噢对,即将开源。

封面图片

卧槽,字节昨天发布这个项目DreamTuner,可以一举解决图像生成中角色一致性的问题。

卧槽,字节昨天发布这个项目DreamTuner,可以一举解决图像生成中角色一致性的问题。 效果也太好了,可以将输入图片的角色在生成新图是完美保留,并且融合度非常好,这下小说、漫画和视频的人物一致性和商品一致性问题彻底解决了。 并且可以和ContorlNet联动确保动画的稳定,间接实现了前段时间的让单张图片动起来的功能。 项目简介: 我们提出了一种新颖的方法DreamTurner,该方法将定制主题的参考信息从粗到细注入。首先提出了一个主题编码器,用于粗略主题身份保留,通过额外的注意力层在视觉-文本交叉注意力之前引入了压缩的一般主题特征。 然后,注意到预训练的文本到图像模型中的自注意力层自然地执行了详细的空间上下文关联功能,我们将其修改为自主题注意力层,以细化目标主题的细节,生成的图像从参考图像和自身查询详细特征。 值得强调的是,自主题注意力是一种优雅、有效且无需训练的方法,用于保持定制概念的详细特征,可在推断过程中作为即插即用的解决方案。 最后,通过对单个图像进行额外微调,DreamTurner 在受主题驱动的图像生成方面取得了显著的表现,可由文本或其他条件(如姿势)进行控制。 项目地址:

封面图片

阿里又tm 整了个大活,输入图片和音频就可以生成富有表现力的视频,并且嘴型是可以跟声音匹配的。

阿里又tm 整了个大活,输入图片和音频就可以生成富有表现力的视频,并且嘴型是可以跟声音匹配的。 支持多语言、谈话、唱歌以及快语速的适配,这玩意又是一个造假利器,这下可能很多名人真要说“不是我说的,你别瞎说”了。 可以根据输入视频的长度生成任意持续时间的视频。 实现方式: 该方法主要分为两个阶段。第一阶段是“帧编码”阶段,在这个阶段,我们使用 ReferenceNet 来从参考图像和运动帧中提取特征。随后进入“扩散过程”阶段,在这一阶段,一个预先训练好的音频编码器用于处理音频数据的嵌入。此外,面部区域的掩码与多帧的噪声数据结合在一起,用于引导面部图像的生成过程。 紧接着,我们使用 Backbone Network 来执行去噪处理。在 Backbone Network 中,我们运用了两种关键的注意力机制:一种是基于参考图像的“参考注意力(Reference-Attention)”,另一种是基于音频的“音频注意力(Audio-Attention)”。 这两种机制对于确保角色的面部特征保持一致和调整角色的面部运动至关重要。最后,我们还利用了时间模块来调节图像的时间维度,使角色的运动速度得以调整。这些组合在一起构成了我们的整体框架。 项目地址:

封面图片

阿里又tm 整了个大活,输入图片和音频就可以生成富有表现力的视频,并且嘴型是可以跟声音匹配的。

阿里又tm 整了个大活,输入图片和音频就可以生成富有表现力的视频,并且嘴型是可以跟声音匹配的。 支持多语言、谈话、唱歌以及快语速的适配,这玩意又是一个造假利器,这下可能很多名人真要说“不是我说的,你别瞎说”了。 可以根据输入视频的长度生成任意持续时间的视频。 实现方式: 该方法主要分为两个阶段。第一阶段是“帧编码”阶段,在这个阶段,我们使用 ReferenceNet 来从参考图像和运动帧中提取特征。随后进入“扩散过程”阶段,在这一阶段,一个预先训练好的音频编码器用于处理音频数据的嵌入。此外,面部区域的掩码与多帧的噪声数据结合在一起,用于引导面部图像的生成过程。 紧接着,我们使用 Backbone Network 来执行去噪处理。在 Backbone Network 中,我们运用了两种关键的注意力机制:一种是基于参考图像的“参考注意力(Reference-Attention)”,另一种是基于音频的“音频注意力(Audio-Attention)”。 这两种机制对于确保角色的面部特征保持一致和调整角色的面部运动至关重要。最后,我们还利用了时间模块来调节图像的时间维度,使角色的运动速度得以调整。这些组合在一起构成了我们的整体框架。 项目地址: Invalid media:

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人