阿里又tm 整了个大活,输入图片和音频就可以生成富有表现力的视频,并且嘴型是可以跟声音匹配的。

阿里又tm 整了个大活,输入图片和音频就可以生成富有表现力的视频,并且嘴型是可以跟声音匹配的。 支持多语言、谈话、唱歌以及快语速的适配,这玩意又是一个造假利器,这下可能很多名人真要说“不是我说的,你别瞎说”了。 可以根据输入视频的长度生成任意持续时间的视频。 实现方式: 该方法主要分为两个阶段。第一阶段是“帧编码”阶段,在这个阶段,我们使用 ReferenceNet 来从参考图像和运动帧中提取特征。随后进入“扩散过程”阶段,在这一阶段,一个预先训练好的音频编码器用于处理音频数据的嵌入。此外,面部区域的掩码与多帧的噪声数据结合在一起,用于引导面部图像的生成过程。 紧接着,我们使用 Backbone Network 来执行去噪处理。在 Backbone Network 中,我们运用了两种关键的注意力机制:一种是基于参考图像的“参考注意力(Reference-Attention)”,另一种是基于音频的“音频注意力(Audio-Attention)”。 这两种机制对于确保角色的面部特征保持一致和调整角色的面部运动至关重要。最后,我们还利用了时间模块来调节图像的时间维度,使角色的运动速度得以调整。这些组合在一起构成了我们的整体框架。 项目地址: Invalid media:

相关推荐

封面图片

阿里又tm 整了个大活,输入图片和音频就可以生成富有表现力的视频,并且嘴型是可以跟声音匹配的。

阿里又tm 整了个大活,输入图片和音频就可以生成富有表现力的视频,并且嘴型是可以跟声音匹配的。 支持多语言、谈话、唱歌以及快语速的适配,这玩意又是一个造假利器,这下可能很多名人真要说“不是我说的,你别瞎说”了。 可以根据输入视频的长度生成任意持续时间的视频。 实现方式: 该方法主要分为两个阶段。第一阶段是“帧编码”阶段,在这个阶段,我们使用 ReferenceNet 来从参考图像和运动帧中提取特征。随后进入“扩散过程”阶段,在这一阶段,一个预先训练好的音频编码器用于处理音频数据的嵌入。此外,面部区域的掩码与多帧的噪声数据结合在一起,用于引导面部图像的生成过程。 紧接着,我们使用 Backbone Network 来执行去噪处理。在 Backbone Network 中,我们运用了两种关键的注意力机制:一种是基于参考图像的“参考注意力(Reference-Attention)”,另一种是基于音频的“音频注意力(Audio-Attention)”。 这两种机制对于确保角色的面部特征保持一致和调整角色的面部运动至关重要。最后,我们还利用了时间模块来调节图像的时间维度,使角色的运动速度得以调整。这些组合在一起构成了我们的整体框架。 项目地址:

封面图片

卧槽,字节昨天发布这个项目DreamTuner,可以一举解决图像生成中角色一致性的问题。

卧槽,字节昨天发布这个项目DreamTuner,可以一举解决图像生成中角色一致性的问题。 效果也太好了,可以将输入图片的角色在生成新图是完美保留,并且融合度非常好,这下小说、漫画和视频的人物一致性和商品一致性问题彻底解决了。 并且可以和ContorlNet联动确保动画的稳定,间接实现了前段时间的让单张图片动起来的功能。 项目简介: 我们提出了一种新颖的方法DreamTurner,该方法将定制主题的参考信息从粗到细注入。首先提出了一个主题编码器,用于粗略主题身份保留,通过额外的注意力层在视觉-文本交叉注意力之前引入了压缩的一般主题特征。 然后,注意到预训练的文本到图像模型中的自注意力层自然地执行了详细的空间上下文关联功能,我们将其修改为自主题注意力层,以细化目标主题的细节,生成的图像从参考图像和自身查询详细特征。 值得强调的是,自主题注意力是一种优雅、有效且无需训练的方法,用于保持定制概念的详细特征,可在推断过程中作为即插即用的解决方案。 最后,通过对单个图像进行额外微调,DreamTurner 在受主题驱动的图像生成方面取得了显著的表现,可由文本或其他条件(如姿势)进行控制。 项目地址:

封面图片

:可以理解图像和音频的内容,并将这些理解与文本输入和输出相结合。

:可以理解图像和音频的内容,并将这些理解与文本输入和输出相结合。 BuboGPT是由字节跳动开发的大型语言模型,能够处理多模态输入,包括文本、图像和音频,并具有将其响应与视觉对象相对应的独特能力。 它可以进行细粒度的视觉理解,音频理解,以及对齐的音频-图像理解和任意音频-图像理解。 BuboGPT的架构是通过学习一个共享的语义空间并进一步探索不同视觉对象和不同模态之间的细粒度关系,从而实现了包括图像、音频和文本在内的多模态理解。 它的训练过程包括两个阶段:单模态预训练和多模态指令调整。 在单模态预训练阶段,对应的模态Q-Former和线性投影层在大量的模态-文本配对数据上进行训练。 在多模态指令调整阶段,使用高质量的多模态指令跟踪数据集对线性投影层进行微调。 当你给它一个图像和一段描述图像的文本时,BuboGPT能够理解文本和图像之间的关系,并生成一个与图像内容相对应的响应。这种能力使得BuboGPT可以在对话中提供更丰富、更具上下文的回答。 音频理解能力:当你给它一个音频剪辑时,它可以生成一个详细的描述,涵盖音频中的所有声音部分,甚至包括一些人类可能无法注意到的短暂音频片段。 BuboGPT还可以处理匹配的音频-图像对,进行声音定位。例如,如果你给它一个场景的图片和场景中发生的声音,它可以理解声音和图像之间的关系,并生成一个描述声音来源位置的响应。 即使音频和图像之间没有直接的关系。在这种情况下,BuboGPT可以生成一个高质量的响应,描述音频和图像之间的可能关系。

封面图片

:阿里巴巴开发的高保真图像到视频生成开源模型 可以生成符合真实世界运动状态的

:阿里巴巴开发的高保真图像到视频生成开源模型 可以生成符合真实世界运动状态的视频 主要功能: 1、高保真视频生成:AtomoVideo可以从单一静态图像生成高保真的视频序列,视频中的内容不仅与原始图片保持高度一致,而且动作自然流畅。 2、动作强度和连贯性:AtomoVideo生成的视频具有自然流畅的动作和良好的时间连贯性。视频中的运动看起来既自然又符合逻辑,没有突兀或不自然的过渡。 为了让视频里的动作看起来自然,AtomoVideo引入了时间卷积和时间注意力模块,这些模块专门处理视频帧之间的时间关系,帮助模型预测下一帧画面的变化,从而实现连贯的视频动作。AtomoVideo会特别处理视频的时间信息,让图片中的物体像在真实世界那样随时间移动和变化。 3、个性化适配:AtomoVideo能够与不同的个性化文本到图像(T2I)模型兼容,无需进行特定调整,这让它能够广泛适用于各种场景。AtomoVideo还能结合文字描述来生成视频。比如,你给它一张静态的海边图片,并告诉它“海浪轻轻拍打沙滩”,它就能根据这个描述生成一段海浪真的拍打沙滩的视频。

封面图片

是一个多阶段的视频生成流程,将文本转图像、动作生成、参考图像嵌入和帧插值等模块集成到一个端到端的生成流水线中,能生成具有

是一个多阶段的视频生成流程,将文本转图像、视频动作生成、参考图像嵌入和帧插值等模块集成到一个端到端的视频生成流水线中,能生成具有出色保真度和流畅度的高分辨率视频。 MagicVideo-V2在美学质量和用户评估方面优于其他文本到视频系统。这一流程为从文本描述生成高质量视频提供了一种新的方法。

封面图片

谷歌升级Gemini 1.5 Pro AI可以听音频了

谷歌升级Gemini 1.5 Pro AI可以听音频了 Gemini 1.5 Pro被视为Gemini家族中的“中量级”(middle-weight)模型,其性能已经超越了最大规模、最强大的Gemini Ultra。谷歌表示,Gemini 1.5 Pro能够理解复杂指令,而且使用时无需对模型进行特别调整。需要指出的是,不通过Vertex AI的用户无法体验到Gemini 1.5 Pro的全部功能。目前,大众主要通过Gemini聊天机器人与Gemini大语言模型互动。尽管GeminiUltra为Gemini Advanced聊天机器人提供了强大支持,能理解较长的指令,但在反应速度上不及Gemini 1.5 Pro。除了Gemini 1.5 Pro的更新,谷歌还对其它大型人工智能模型进行了升级。特别是作为文本转图像生成模型的Imagen 2,它增强了Gemini的图像生成能力。通过引入图像外延(Outpainting)和内填(Inpainting)功能,用户现在能更灵活地对图像的元素进行添加或删除。为确保Imagen模型生成的图片版权和来源可追溯,谷歌为所有生成图片加入了SynthID数字水印技术。这种创新技术通过几乎不可见的水印明确标识图片来源,可以通过专用工具进行检测。Imagen模型的许多新特性,如图像外延和内填技术,已被其他文本转图像模型采用,例如Stability AI的Stable Cascade和Getty的Generative AI by iStock。此外,这些技术也被广泛应用于消费电子产品中,如三星Galaxy手机。除图像生成的创新外,谷歌还公开展示了一种结合人工智能生成回答和谷歌搜索结果的方法,旨在为用户提供更实时、更准确的信息。然而,大语言模型生成的回答并非总是精准无误,有时可能会误导用户。因此,谷歌对Gemini模型设置了一些限制,比如禁止回答与2024年美国大选相关的问题。此前,Gemini模型因在生成历史人物描述时出现不准确而受到批评。 ... PC版: 手机版:

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人