AI 根据声音内容帮照片“对口型”，蚂蚁集团开源 EchoMimic 项目

AI根据声音内容帮照片“对口型”，蚂蚁集团开源EchoMimic项目蚂蚁集团开源了名为的新项目，其能够通过人像面部特征和音频来帮人物“对口型”，结合面部标志点和音频内容生成较为稳定、自然的视频。该项目具备较高的稳定性和自然度，通过融合音频和面部标志点（面部关键特征和结构，通常位于眼、鼻、嘴等位置）的特征，可生成更符合真实面部运动和表情变化的视频。其支持单独使用音频或面部标志点生成肖像视频，也支持将音频和人像照片相结合做出“对口型”一般的效果。据悉，其支持多语言（包含中文普通话、英语）及多风格，也可应对唱歌等场景。来源，频道：@kejiqu群组：@kejiquchat

在Telegram中查看

相关推荐

微软推出VASA-1 AI框架，实现高分辨率逼真对口型人像视频的即时生成

微软推出VASA-1AI框架，实现高分辨率逼真对口型人像视频的即时生成微软公布了其最新研发的VASA-1AI框架，该技术能够利用一张真人肖像照片和一段个人语音音频，生成精确且逼真的对口型视频。这项技术特别注重面部表情和头部动作的自然性，解决了以往面部生成技术中存在的僵硬和缺乏说服力的问题，克服了恐怖谷现象。VASA-1框架通过扩散Transformer模型进行面部动态和头部运动的训练，将嘴唇动作、表情、眼睛注视和眨眼等行为视为单一潜在变量，实现了512×512分辨率40FPS的视频生成。此外，微软还采用了3D技术辅助标记人脸面部特征，并设计了损失函数，以增强面部3D结构的捕捉和重现能力。关注频道：@TestFlightCN

国外爆火emo模型国内上线了，阿里可以让人像照片变成唱歌视频的项目 EMO 终于发布了，体验了一下非常强。

国外爆火emo模型国内上线了，阿里可以让人像照片变成唱歌视频的项目EMO终于发布了，体验了一下非常强。一张简单的照片加上克隆的语音模型，就可以定制自己的数字人出镜。Heygen之类的产品都需要录制一段相当长的视频，并且算力成本也很高，这个直接是免费的。明天开放公测，想要提前体验的同学可以找我要一个内测邀请码。而且不局限于写实的人像，3D模型、二次元漫画都可以生成视频，生成一张自己喜欢的二次元图片然后加上自己的克隆语音就可以当Vtuber了。EMO效果为什么这么自然：通过阅读EMO的论文发现，他们在talkinghead领域首次提出了weakcondition（弱控制）的设计，即剔除掉了任何针对人脸的显示表征建模，转而采用一些相对较弱的控制条件来引导diffusion去噪过程，这一点其实灵感来源于文生图模型中，采用粗粒度的prompt描述来生成图片。他们在算法pipeline中加入了facelocator和speedlayers，分别用来控制人脸的生成区域（人头摆动幅度）与人头的动作频率。通过这些操作，可以最大化地保留diffusion模型强大的生成创造能力，由于没有针对表情的显示表征的限制，所生成的人脸表情都会有较高的丰富度，从而表现力有较大的提升EMO没有针对人脸生成做过多的控制，人物会做什么表情，头部会如何运动，都是由模型从数据中学习到相关的知识决定。表情、口型的一致如何保证：模型会在训练中找到音频特征与图像中像素的对应关系，从而放大音频特征对于这些相关像素的影响，比如嘴部，眉眼等位置的像素，让图像中的人物表情口型与音频特征保持一致。EMO在250小时的人物讲话视频上训练，不仅仅找到了audio中具体发音与人像口型的匹配关系，更重要是发现了音频中的语气特征与人物表情的关联性，从而将音频中的语气特征，甚至暗含的情绪色彩反映到了人物微表情上，它模型在训练中慢慢学习并编码了人类表达情绪的能力。

微软的 VASA-1 模型根据一张照片和一条音轨生成该人的说话视频

微软的VASA-1模型根据一张照片和一条音轨生成该人的说话视频微软亚洲研究院发布了模型，该模型能根据一个人的一张照片和一条音轨生成其说话或唱歌的同步动画视频。VASA代表VisualAffectiveSkillsAnimator，它使用了机器学习分析静态图像和音频片段，然后生成有精确面部表情、头部运动以及与音频口型同步的逼真视频。微软声称该模型在真实性、表现力和效率方面显著优于以前的语音动画方法。微软研究员使用了VoxCeleb2数据集训练了VASA-1。该数据集包含了6112位名人的逾100万条话语，提取自上传到YouTube的视频。VASA-1能以每秒最高40帧的速度生成512x512像素分辨率的视频，它潜在可用于深度伪造，研究人员没有公开模型源代码。来源，频道：@kejiqu群组：@kejiquchat

2月28日，阿里巴巴智能计算研究所发布了一款全新的生成式AI模型EMO（Emote Portrait Alive）。EMO仅需一

2月28日，阿里巴巴智能计算研究所发布了一款全新的生成式AI模型EMO（EmotePortraitAlive）。EMO仅需一张人物肖像照片和音频，就可以让照片中的人物按照音频内容“张嘴”唱歌、说话，且口型基本一致，面部表情和头部姿态非常自然。EMO不仅能够生成唱歌和说话的视频，还能在保持角色身份稳定性的同时，根据输入音频的长度生成不同时长的视频。()https://humanaigc.github.io/emote-portrait-alive/线索：@ZaiHuabot投稿：@TNSubmbot频道：@TestFlightCN

阿里又tm 整了个大活，输入图片和音频就可以生成富有表现力的视频，并且嘴型是可以跟声音匹配的。#ai#

阿里又tm整了个大活，输入图片和音频就可以生成富有表现力的视频，并且嘴型是可以跟声音匹配的。支持多语言、谈话、唱歌以及快语速的适配，这玩意又是一个造假利器，这下可能很多名人真要说“不是我说的，你别瞎说”了。可以根据输入视频的长度生成任意持续时间的视频。实现方式：该方法主要分为两个阶段。第一阶段是“帧编码”阶段，在这个阶段，我们使用ReferenceNet来从参考图像和运动帧中提取特征。随后进入“扩散过程”阶段，在这一阶段，一个预先训练好的音频编码器用于处理音频数据的嵌入。此外，面部区域的掩码与多帧的噪声数据结合在一起，用于引导面部图像的生成过程。紧接着，我们使用BackboneNetwork来执行去噪处理。在BackboneNetwork中，我们运用了两种关键的注意力机制：一种是基于参考图像的“参考注意力（Reference-Attention）”，另一种是基于音频的“音频注意力（Audio-Attention）”。这两种机制对于确保角色的面部特征保持一致和调整角色的面部运动至关重要。最后，我们还利用了时间模块来调节图像的时间维度，使角色的运动速度得以调整。这些组合在一起构成了我们的整体框架。项目地址：

Test-Agent：蚂蚁集团开源的测试行业大模型工具。| #工具

：蚂蚁集团开源的测试行业大模型工具。#工具该项目主要包含测试领域模型TestGPT-7B模型何其配套工具。与当前已有开源模型相比，TestGPT-7B模型在用例执行通过率（pass1）、用例场景覆盖（平均测试场景数）上都处于业界领先水平。TestGPT-7B模型以CodeLlama-7B为基座，进行了相关下游任务的微调：多语言测试用例生成（Java/Python/Javascript）一直以来都是学术界和工业界非常关注的领域，近年来不断有新产品或工具孵化出来，如EvoSuite、Randoop、SmartUnit等。然而传统的用例生成存在其难以解决的痛点问题，基于大模型的测试用例生成在测试用例可读性、测试场景完整度、多语言支持方面都优于传统用例生成工具。本次重点支持了多语言测试用例生成，在我们本次开源的版本中首先包含了Java、Python、Javascript的测试用例生成能力，下一版本中逐步开放Go、C++等语言。测试用例Assert补全对当前测试用例现状的分析与探查时，我们发现代码仓库中存在一定比例的存量测试用例中未包含Assert。没有Assert的测试用例虽然能够在回归过程中执行通过，却无法发现问题。因此我们拓展了测试用例Assert自动补全这一场景。通过该模型能力，结合一定的工程化配套，可以实现对全库测试用例的批量自动补全，智能提升项目质量水位。

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人