微软这个VASA-1通过照片和声音生成人物说话视频的项目强的有点离谱。

微软这个VASA-1通过照片和声音生成人物说话视频的项目强的有点离谱。 从显示效果来看基本不存在瑕疵了。视频生成的技术瓶颈又一个被突破。 项目特点: 可以捕捉到大量的情感和表情细微差别以及自然的头部动作,从而增强真实感和生动感。 支持接受可选信号作为条件,例如主眼注视方向和头部距离,以及情绪偏移。 能够处理超出训练分布的照片和音频输入。它可以处理艺术照片、歌唱音频和非英语语音。 支持表情和姿势的编辑。 在离线批处理模式下以每秒 45 帧的速度生成 512x512 大小的视频帧,在在线流模式下可支持高达每秒 40 帧的速度,之前的延迟时间仅为 170 毫秒。 项目地址:

相关推荐

封面图片

微软的 VASA-1 模型根据一张照片和一条音轨生成该人的说话视频

微软的 VASA-1 模型根据一张照片和一条音轨生成该人的说话视频 微软亚洲研究院发布了模型,该模型能根据一个人的一张照片和一条音轨生成其说话或唱歌的同步动画视频。VASA 代表 Visual Affective Skills Animator,它使用了机器学习分析静态图像和音频片段,然后生成有精确面部表情、头部运动以及与音频口型同步的逼真视频。微软声称该模型在真实性、表现力和效率方面显著优于以前的语音动画方法。微软研究员使用了 VoxCeleb2 数据集训练了 VASA-1。该数据集包含了 6112 位名人的逾 100 万条话语,提取自上传到 YouTube 的视频。VASA-1 能以每秒最高 40 帧的速度生成 512x512 像素分辨率的视频,它潜在可用于深度伪造,研究人员没有公开模型源代码。#视频 来源 , 频道:@kejiqu 群组:@kejiquchat

封面图片

AI 根据声音内容帮照片“对口型”,蚂蚁集团开源 EchoMimic 项目

AI 根据声音内容帮照片“对口型”,蚂蚁集团开源 EchoMimic 项目 蚂蚁集团开源了名为的新项目,其能够通过人像面部特征和音频来帮人物“对口型”,结合面部标志点和音频内容生成较为稳定、自然的视频。 该项目具备较高的稳定性和自然度,通过融合音频和面部标志点(面部关键特征和结构,通常位于眼、鼻、嘴等位置)的特征,可生成更符合真实面部运动和表情变化的视频。 其支持单独使用音频或面部标志点生成肖像视频,也支持将音频和人像照片相结合做出“对口型”一般的效果。据悉,其支持多语言(包含中文普通话、英语)及多风格,也可应对唱歌等场景。来源 , 频道:@kejiqu 群组:@kejiquchat

封面图片

微软展示VASA-1人工智能模型 能将照片变成"会说话的人脸"

微软展示VASA-1人工智能模型 能将照片变成"会说话的人脸" 该模型目前只是研究预览版,微软研究团队以外的任何人都无法试用,但演示视频看起来令人印象深刻。Runway 和 NVIDIA 已经推出了类似的唇部同步和头部运动技术,但这种技术的质量和逼真度似乎要高得多,可以减少嘴部伪影。这种音频驱动动画的方法也与Google研究院最近推出的VLOGGER 人工智能模型类似。VASA-1 如何工作?微软表示,这是一个新的框架,用于创建栩栩如生的会说话的人脸,专门用于虚拟人物的动画制作。示例中的所有人物都是合成的,是用 DALL-E 制作的,但如果它能为逼真的人工智能图像制作动画,那么它也能为真实的照片制作动画。在演示中,我们看到人们说话时就像在被拍摄一样,动作略显生涩,但看起来非常自然。唇语同步令人印象深刻,动作自然,嘴部上下没有其他工具中出现的假象。VASA-1 最令人印象深刻的一点似乎是,它不需要正面朝上的人像图像就能工作。其中有面向不同方向拍摄的例子。该模型似乎还具有很强的控制能力,能够将眼睛注视的方向、头部距离甚至情绪作为输入来引导生成。VASA-1 的意义何在?其中一个最明显的应用案例就是游戏中的高级唇语同步。如果能创造出具有自然唇部动作的人工智能驱动的 NPC,就能改变游戏的沉浸感。它还可用于为社交媒体视频创建虚拟化身,HeyGen 和 Synthesia 等公司已经采用了这种技术。另一个领域是基于人工智能的电影制作。如果能让人工智能歌手看起来像在唱歌,就能制作出更逼真的音乐视频。尽管如此,该团队表示,这只是一次研究演示,并没有公开发布的计划,甚至也不会提供给开发人员在产品中使用。VASA-1 的效果如何?让研究人员感到惊讶的是,VASA-1 能够完美地对歌曲进行歌词嘴型同步,尽管训练数据集中没有使用音乐,但它仍能毫无问题地反映歌手的歌词。它还能处理不同风格的图像,包括蒙娜丽莎。他们让它以每秒 45 帧的速度创建 512x512 像素的图像,使用桌面级 NVIDIA RTX 4090 GPU 可在大约 2 分钟内完成。虽然他们说这只是用于研究,但如果它不能进入公共领域,那就太可惜了,即使只是面向开发者,鉴于微软在OpenAI中拥有巨大的股份,这甚至可能成为未来 Copilot Sora 集成的一部分。 ... PC版: 手机版:

封面图片

阿里又tm 整了个大活,输入图片和音频就可以生成富有表现力的视频,并且嘴型是可以跟声音匹配的。

阿里又tm 整了个大活,输入图片和音频就可以生成富有表现力的视频,并且嘴型是可以跟声音匹配的。 支持多语言、谈话、唱歌以及快语速的适配,这玩意又是一个造假利器,这下可能很多名人真要说“不是我说的,你别瞎说”了。 可以根据输入视频的长度生成任意持续时间的视频。 实现方式: 该方法主要分为两个阶段。第一阶段是“帧编码”阶段,在这个阶段,我们使用 ReferenceNet 来从参考图像和运动帧中提取特征。随后进入“扩散过程”阶段,在这一阶段,一个预先训练好的音频编码器用于处理音频数据的嵌入。此外,面部区域的掩码与多帧的噪声数据结合在一起,用于引导面部图像的生成过程。 紧接着,我们使用 Backbone Network 来执行去噪处理。在 Backbone Network 中,我们运用了两种关键的注意力机制:一种是基于参考图像的“参考注意力(Reference-Attention)”,另一种是基于音频的“音频注意力(Audio-Attention)”。 这两种机制对于确保角色的面部特征保持一致和调整角色的面部运动至关重要。最后,我们还利用了时间模块来调节图像的时间维度,使角色的运动速度得以调整。这些组合在一起构成了我们的整体框架。 项目地址:

封面图片

阿里又tm 整了个大活,输入图片和音频就可以生成富有表现力的视频,并且嘴型是可以跟声音匹配的。

阿里又tm 整了个大活,输入图片和音频就可以生成富有表现力的视频,并且嘴型是可以跟声音匹配的。 支持多语言、谈话、唱歌以及快语速的适配,这玩意又是一个造假利器,这下可能很多名人真要说“不是我说的,你别瞎说”了。 可以根据输入视频的长度生成任意持续时间的视频。 实现方式: 该方法主要分为两个阶段。第一阶段是“帧编码”阶段,在这个阶段,我们使用 ReferenceNet 来从参考图像和运动帧中提取特征。随后进入“扩散过程”阶段,在这一阶段,一个预先训练好的音频编码器用于处理音频数据的嵌入。此外,面部区域的掩码与多帧的噪声数据结合在一起,用于引导面部图像的生成过程。 紧接着,我们使用 Backbone Network 来执行去噪处理。在 Backbone Network 中,我们运用了两种关键的注意力机制:一种是基于参考图像的“参考注意力(Reference-Attention)”,另一种是基于音频的“音频注意力(Audio-Attention)”。 这两种机制对于确保角色的面部特征保持一致和调整角色的面部运动至关重要。最后,我们还利用了时间模块来调节图像的时间维度,使角色的运动速度得以调整。这些组合在一起构成了我们的整体框架。 项目地址: Invalid media:

封面图片

ℹ免费语音影片合成工具 Hedra,让你的照片人物开口说话#

ℹ免费语音影片合成工具 Hedra,让你的照片人物开口说话# Hedra 能够让任意人物的照片和语音合成并生成出会说话或唱歌的动态影片,与此同时还可以保持人物的唇型和表情,姿态与语音内容相匹配。生成出...

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人