微软这个VASA-1通过照片和声音生成人物说话视频的项目强的有点离谱。

微软的 VASA-1 模型根据一张照片和一条音轨生成该人的说话视频

微软的 VASA-1 模型根据一张照片和一条音轨生成该人的说话视频微软亚洲研究院发布了模型，该模型能根据一个人的一张照片和一条音轨生成其说话或唱歌的同步动画视频。VASA 代表 Visual Affective Skills Animator，它使用了机器学习分析静态图像和音频片段，然后生成有精确面部表情、头部运动以及与音频口型同步的逼真视频。微软声称该模型在真实性、表现力和效率方面显著优于以前的语音动画方法。微软研究员使用了 VoxCeleb2 数据集训练了 VASA-1。该数据集包含了 6112 位名人的逾 100 万条话语，提取自上传到 YouTube 的视频。VASA-1 能以每秒最高 40 帧的速度生成 512x512 像素分辨率的视频，它潜在可用于深度伪造，研究人员没有公开模型源代码。#视频来源，频道：@kejiqu 群组：@kejiquchat

AI 根据声音内容帮照片“对口型”，蚂蚁集团开源 EchoMimic 项目

AI 根据声音内容帮照片“对口型”，蚂蚁集团开源 EchoMimic 项目蚂蚁集团开源了名为的新项目，其能够通过人像面部特征和音频来帮人物“对口型”，结合面部标志点和音频内容生成较为稳定、自然的视频。该项目具备较高的稳定性和自然度，通过融合音频和面部标志点（面部关键特征和结构，通常位于眼、鼻、嘴等位置）的特征，可生成更符合真实面部运动和表情变化的视频。其支持单独使用音频或面部标志点生成肖像视频，也支持将音频和人像照片相结合做出“对口型”一般的效果。据悉，其支持多语言（包含中文普通话、英语）及多风格，也可应对唱歌等场景。来源，频道：@kejiqu 群组：@kejiquchat

微软展示VASA-1人工智能模型能将照片变成"会说话的人脸"

微软展示VASA-1人工智能模型能将照片变成"会说话的人脸" 该模型目前只是研究预览版，微软研究团队以外的任何人都无法试用，但演示视频看起来令人印象深刻。Runway 和 NVIDIA 已经推出了类似的唇部同步和头部运动技术，但这种技术的质量和逼真度似乎要高得多，可以减少嘴部伪影。这种音频驱动动画的方法也与Google研究院最近推出的VLOGGER 人工智能模型类似。VASA-1 如何工作？微软表示，这是一个新的框架，用于创建栩栩如生的会说话的人脸，专门用于虚拟人物的动画制作。示例中的所有人物都是合成的，是用 DALL-E 制作的，但如果它能为逼真的人工智能图像制作动画，那么它也能为真实的照片制作动画。在演示中，我们看到人们说话时就像在被拍摄一样，动作略显生涩，但看起来非常自然。唇语同步令人印象深刻，动作自然，嘴部上下没有其他工具中出现的假象。VASA-1 最令人印象深刻的一点似乎是，它不需要正面朝上的人像图像就能工作。其中有面向不同方向拍摄的例子。该模型似乎还具有很强的控制能力，能够将眼睛注视的方向、头部距离甚至情绪作为输入来引导生成。VASA-1 的意义何在？其中一个最明显的应用案例就是游戏中的高级唇语同步。如果能创造出具有自然唇部动作的人工智能驱动的 NPC，就能改变游戏的沉浸感。它还可用于为社交媒体视频创建虚拟化身，HeyGen 和 Synthesia 等公司已经采用了这种技术。另一个领域是基于人工智能的电影制作。如果能让人工智能歌手看起来像在唱歌，就能制作出更逼真的音乐视频。尽管如此，该团队表示，这只是一次研究演示，并没有公开发布的计划，甚至也不会提供给开发人员在产品中使用。VASA-1 的效果如何？让研究人员感到惊讶的是，VASA-1 能够完美地对歌曲进行歌词嘴型同步，尽管训练数据集中没有使用音乐，但它仍能毫无问题地反映歌手的歌词。它还能处理不同风格的图像，包括蒙娜丽莎。他们让它以每秒 45 帧的速度创建 512x512 像素的图像，使用桌面级 NVIDIA RTX 4090 GPU 可在大约 2 分钟内完成。虽然他们说这只是用于研究，但如果它不能进入公共领域，那就太可惜了，即使只是面向开发者，鉴于微软在OpenAI中拥有巨大的股份，这甚至可能成为未来 Copilot Sora 集成的一部分。 ... PC版：手机版：

终于有时间尝试了一下这几天开放的SD视频生成项目Animatediff，下面是，卧槽这也太强了。

终于有时间尝试了一下这几天开放的SD视频生成项目Animatediff，下面是视频，卧槽这也太强了。新版还支持镜头控制，可以说是本地版本的Pika了。生成的视频比Pika清晰多了，而且比Runway要稳定很多，再加上SD强大的模型支持，这还用啥Pika。就是比较吃算力512的视频36帧4070ti要四五分钟。

阿里又tm 整了个大活，输入图片和音频就可以生成富有表现力的视频，并且嘴型是可以跟声音匹配的。

阿里又tm 整了个大活，输入图片和音频就可以生成富有表现力的视频，并且嘴型是可以跟声音匹配的。支持多语言、谈话、唱歌以及快语速的适配，这玩意又是一个造假利器，这下可能很多名人真要说“不是我说的，你别瞎说”了。可以根据输入视频的长度生成任意持续时间的视频。实现方式：该方法主要分为两个阶段。第一阶段是“帧编码”阶段，在这个阶段，我们使用 ReferenceNet 来从参考图像和运动帧中提取特征。随后进入“扩散过程”阶段，在这一阶段，一个预先训练好的音频编码器用于处理音频数据的嵌入。此外，面部区域的掩码与多帧的噪声数据结合在一起，用于引导面部图像的生成过程。紧接着，我们使用 Backbone Network 来执行去噪处理。在 Backbone Network 中，我们运用了两种关键的注意力机制：一种是基于参考图像的“参考注意力（Reference-Attention）”，另一种是基于音频的“音频注意力（Audio-Attention）”。这两种机制对于确保角色的面部特征保持一致和调整角色的面部运动至关重要。最后，我们还利用了时间模块来调节图像的时间维度，使角色的运动速度得以调整。这些组合在一起构成了我们的整体框架。项目地址：

阿里又tm 整了个大活，输入图片和音频就可以生成富有表现力的视频，并且嘴型是可以跟声音匹配的。

阿里又tm 整了个大活，输入图片和音频就可以生成富有表现力的视频，并且嘴型是可以跟声音匹配的。支持多语言、谈话、唱歌以及快语速的适配，这玩意又是一个造假利器，这下可能很多名人真要说“不是我说的，你别瞎说”了。可以根据输入视频的长度生成任意持续时间的视频。实现方式：该方法主要分为两个阶段。第一阶段是“帧编码”阶段，在这个阶段，我们使用 ReferenceNet 来从参考图像和运动帧中提取特征。随后进入“扩散过程”阶段，在这一阶段，一个预先训练好的音频编码器用于处理音频数据的嵌入。此外，面部区域的掩码与多帧的噪声数据结合在一起，用于引导面部图像的生成过程。紧接着，我们使用 Backbone Network 来执行去噪处理。在 Backbone Network 中，我们运用了两种关键的注意力机制：一种是基于参考图像的“参考注意力（Reference-Attention）”，另一种是基于音频的“音频注意力（Audio-Attention）”。这两种机制对于确保角色的面部特征保持一致和调整角色的面部运动至关重要。最后，我们还利用了时间模块来调节图像的时间维度，使角色的运动速度得以调整。这些组合在一起构成了我们的整体框架。项目地址： Invalid media:

相关推荐

微软的 VASA-1 模型根据一张照片和一条音轨生成该人的说话视频

AI 根据声音内容帮照片“对口型”，蚂蚁集团开源 EchoMimic 项目

微软展示VASA-1人工智能模型 能将照片变成"会说话的人脸"

终于有时间尝试了一下这几天开放的SD视频生成项目Animatediff，下面是，卧槽这也太强了。

阿里又tm 整了个大活，输入图片和音频就可以生成富有表现力的视频，并且嘴型是可以跟声音匹配的。

阿里又tm 整了个大活，输入图片和音频就可以生成富有表现力的视频，并且嘴型是可以跟声音匹配的。

微软展示VASA-1人工智能模型能将照片变成"会说话的人脸"