微软这个VASA-1通过照片和声音生成人物说话视频的项目强的有点离谱。

微软这个VASA-1通过照片和声音生成人物说话视频的项目强的有点离谱。从显示效果来看基本不存在瑕疵了。视频生成的技术瓶颈又一个被突破。项目特点：可以捕捉到大量的情感和表情细微差别以及自然的头部动作，从而增强真实感和生动感。支持接受可选信号作为条件，例如主眼注视方向和头部距离，以及情绪偏移。能够处理超出训练分布的照片和音频输入。它可以处理艺术照片、歌唱音频和非英语语音。支持表情和姿势的编辑。在离线批处理模式下以每秒45帧的速度生成512x512大小的视频帧，在在线流模式下可支持高达每秒40帧的速度，之前的延迟时间仅为170毫秒。项目地址：https://www.microsoft.com/en-us/research/project/vasa-1/

在Telegram中查看

相关推荐

微软的 VASA-1 模型根据一张照片和一条音轨生成该人的说话视频

微软的VASA-1模型根据一张照片和一条音轨生成该人的说话视频微软亚洲研究院发布了模型，该模型能根据一个人的一张照片和一条音轨生成其说话或唱歌的同步动画视频。VASA代表VisualAffectiveSkillsAnimator，它使用了机器学习分析静态图像和音频片段，然后生成有精确面部表情、头部运动以及与音频口型同步的逼真视频。微软声称该模型在真实性、表现力和效率方面显著优于以前的语音动画方法。微软研究员使用了VoxCeleb2数据集训练了VASA-1。该数据集包含了6112位名人的逾100万条话语，提取自上传到YouTube的视频。VASA-1能以每秒最高40帧的速度生成512x512像素分辨率的视频，它潜在可用于深度伪造，研究人员没有公开模型源代码。来源，频道：@kejiqu群组：@kejiquchat

阿里云的AI模型EMO上线通义App，允许用户通过照片和音频生成唱歌视频

阿里云的AI模型EMO上线通义App，允许用户通过照片和音频生成唱歌视频由通义实验室研发的AI模型EMO已在通义App上线，供用户免费使用。EMO是一个音频驱动的AI肖像视频生成系统，能够根据输入的参考图像和语音音频生成具有表现力的面部表情和头部姿势视频。用户可以选择多种模板，如热门歌曲或网络热梗，上传肖像照片后，EMO将合成相应的唱歌视频。目前，App提供了80多个模板，但不支持自定义音频。EMO的主要特点包括音频驱动的视频生成、高表现力和逼真度、无缝帧过渡、身份保持、稳定的控制机制、灵活的视频时长以及跨语言和风格的适应能力。此外，EMO的官方项目主页、研究论文和GitHub链接均已提供，模型和源码将待开源。关注频道@TestFlightCN

AI 根据声音内容帮照片“对口型”，蚂蚁集团开源 EchoMimic 项目

AI根据声音内容帮照片“对口型”，蚂蚁集团开源EchoMimic项目蚂蚁集团开源了名为的新项目，其能够通过人像面部特征和音频来帮人物“对口型”，结合面部标志点和音频内容生成较为稳定、自然的视频。该项目具备较高的稳定性和自然度，通过融合音频和面部标志点（面部关键特征和结构，通常位于眼、鼻、嘴等位置）的特征，可生成更符合真实面部运动和表情变化的视频。其支持单独使用音频或面部标志点生成肖像视频，也支持将音频和人像照片相结合做出“对口型”一般的效果。据悉，其支持多语言（包含中文普通话、英语）及多风格，也可应对唱歌等场景。来源，频道：@kejiqu群组：@kejiquchat

微软推出VASA-1 AI框架，实现高分辨率逼真对口型人像视频的即时生成

微软推出VASA-1AI框架，实现高分辨率逼真对口型人像视频的即时生成微软公布了其最新研发的VASA-1AI框架，该技术能够利用一张真人肖像照片和一段个人语音音频，生成精确且逼真的对口型视频。这项技术特别注重面部表情和头部动作的自然性，解决了以往面部生成技术中存在的僵硬和缺乏说服力的问题，克服了恐怖谷现象。VASA-1框架通过扩散Transformer模型进行面部动态和头部运动的训练，将嘴唇动作、表情、眼睛注视和眨眼等行为视为单一潜在变量，实现了512×512分辨率40FPS的视频生成。此外，微软还采用了3D技术辅助标记人脸面部特征，并设计了损失函数，以增强面部3D结构的捕捉和重现能力。关注频道：@TestFlightCN

微软展示VASA-1人工智能模型能将照片变成"会说话的人脸"

微软展示VASA-1人工智能模型能将照片变成"会说话的人脸"该模型目前只是研究预览版，微软研究团队以外的任何人都无法试用，但演示视频看起来令人印象深刻。Runway和NVIDIA已经推出了类似的唇部同步和头部运动技术，但这种技术的质量和逼真度似乎要高得多，可以减少嘴部伪影。这种音频驱动动画的方法也与Google研究院最近推出的VLOGGER人工智能模型类似。VASA-1如何工作？微软表示，这是一个新的框架，用于创建栩栩如生的会说话的人脸，专门用于虚拟人物的动画制作。示例中的所有人物都是合成的，是用DALL-E制作的，但如果它能为逼真的人工智能图像制作动画，那么它也能为真实的照片制作动画。在演示中，我们看到人们说话时就像在被拍摄一样，动作略显生涩，但看起来非常自然。唇语同步令人印象深刻，动作自然，嘴部上下没有其他工具中出现的假象。VASA-1最令人印象深刻的一点似乎是，它不需要正面朝上的人像图像就能工作。其中有面向不同方向拍摄的例子。该模型似乎还具有很强的控制能力，能够将眼睛注视的方向、头部距离甚至情绪作为输入来引导生成。VASA-1的意义何在？其中一个最明显的应用案例就是游戏中的高级唇语同步。如果能创造出具有自然唇部动作的人工智能驱动的NPC，就能改变游戏的沉浸感。它还可用于为社交媒体视频创建虚拟化身，HeyGen和Synthesia等公司已经采用了这种技术。另一个领域是基于人工智能的电影制作。如果能让人工智能歌手看起来像在唱歌，就能制作出更逼真的音乐视频。尽管如此，该团队表示，这只是一次研究演示，并没有公开发布的计划，甚至也不会提供给开发人员在产品中使用。VASA-1的效果如何？让研究人员感到惊讶的是，VASA-1能够完美地对歌曲进行歌词嘴型同步，尽管训练数据集中没有使用音乐，但它仍能毫无问题地反映歌手的歌词。它还能处理不同风格的图像，包括蒙娜丽莎。他们让它以每秒45帧的速度创建512x512像素的图像，使用桌面级NVIDIARTX4090GPU可在大约2分钟内完成。虽然他们说这只是用于研究，但如果它不能进入公共领域，那就太可惜了，即使只是面向开发者，鉴于微软在OpenAI中拥有巨大的股份，这甚至可能成为未来CopilotSora集成的一部分。...PC版：https://www.cnbeta.com.tw/articles/soft/1427876.htm手机版：https://m.cnbeta.com.tw/view/1427876.htm

阿里又tm 整了个大活，输入图片和音频就可以生成富有表现力的视频，并且嘴型是可以跟声音匹配的。

阿里又tm整了个大活，输入图片和音频就可以生成富有表现力的视频，并且嘴型是可以跟声音匹配的。支持多语言、谈话、唱歌以及快语速的适配，这玩意又是一个造假利器，这下可能很多名人真要说“不是我说的，你别瞎说”了。可以根据输入视频的长度生成任意持续时间的视频。实现方式：该方法主要分为两个阶段。第一阶段是“帧编码”阶段，在这个阶段，我们使用ReferenceNet来从参考图像和运动帧中提取特征。随后进入“扩散过程”阶段，在这一阶段，一个预先训练好的音频编码器用于处理音频数据的嵌入。此外，面部区域的掩码与多帧的噪声数据结合在一起，用于引导面部图像的生成过程。紧接着，我们使用BackboneNetwork来执行去噪处理。在BackboneNetwork中，我们运用了两种关键的注意力机制：一种是基于参考图像的“参考注意力（Reference-Attention）”，另一种是基于音频的“音频注意力（Audio-Attention）”。这两种机制对于确保角色的面部特征保持一致和调整角色的面部运动至关重要。最后，我们还利用了时间模块来调节图像的时间维度，使角色的运动速度得以调整。这些组合在一起构成了我们的整体框架。项目地址：https://humanaigc.github.io/emote-portrait-alive/Invalidmedia:

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人