AI 根据声音内容帮照片“对口型”,蚂蚁集团开源 EchoMimic 项目

AI 根据声音内容帮照片“对口型”,蚂蚁集团开源 EchoMimic 项目 蚂蚁集团开源了名为的新项目,其能够通过人像面部特征和音频来帮人物“对口型”,结合面部标志点和音频内容生成较为稳定、自然的视频。 该项目具备较高的稳定性和自然度,通过融合音频和面部标志点(面部关键特征和结构,通常位于眼、鼻、嘴等位置)的特征,可生成更符合真实面部运动和表情变化的视频。 其支持单独使用音频或面部标志点生成肖像视频,也支持将音频和人像照片相结合做出“对口型”一般的效果。据悉,其支持多语言(包含中文普通话、英语)及多风格,也可应对唱歌等场景。来源 , 频道:@kejiqu 群组:@kejiquchat

相关推荐

封面图片

国外爆火emo模型国内上线了,阿里可以让人像照片变成唱歌视频的项目 EMO 终于发布了,体验了一下非常强。

国外爆火emo模型国内上线了,阿里可以让人像照片变成唱歌视频的项目 EMO 终于发布了,体验了一下非常强。 一张简单的照片加上克隆的语音模型,就可以定制自己的数字人出镜。 Heygen 之类的产品都需要录制一段相当长的视频,并且算力成本也很高,这个直接是免费的。明天开放公测,想要提前体验的同学可以找我要一个内测邀请码。 而且不局限于写实的人像,3D 模型、 二次元漫画都可以生成视频,生成一张自己喜欢的二次元图片然后加上自己的克隆语音就可以当Vtuber了。 EMO效果为什么这么自然: 通过阅读EMO的论文发现,他们在talking head领域首次提出了weak condition(弱控制)的设计,即剔除掉了任何针对人脸的显示表征建模,转而采用一些相对较弱的控制条件来引导diffusion去噪过程,这一点其实灵感来源于文生图模型中,采用粗粒度的prompt描述来生成图片。 他们在算法pipeline中加入了face locator和speed layers,分别用来控制人脸的生成区域(人头摆动幅度)与人头的动作频率。通过这些操作,可以最大化地保留diffusion模型强大的生成创造能力,由于没有针对表情的显示表征的限制,所生成的人脸表情都会有较高的丰富度,从而表现力有较大的提升 EMO没有针对人脸生成做过多的控制,人物会做什么表情,头部会如何运动,都是由模型从数据中学习到相关的知识决定。 表情、口型的一致如何保证: 模型会在训练中找到音频特征与图像中像素的对应关系,从而放大音频特征对于这些相关像素的影响,比如嘴部,眉眼等位置的像素,让图像中的人物表情口型与音频特征保持一致。 EMO在250小时的人物讲话视频上训练,不仅仅找到了audio中具体发音与人像口型的匹配关系,更重要是发现了音频中的语气特征与人物表情的关联性,从而将音频中的语气特征,甚至暗含的情绪色彩反映到了人物微表情上,它模型在训练中慢慢学习并编码了人类表达情绪的能力。

封面图片

支持视频剪辑、添加水印、书单、对口型、提词器、图片动起来、压缩、特效字幕、画笔标记等多个功能,助你轻松制作火爆朋友圈的视

支持视频剪辑、添加水印、书单视频、对口型、提词器、图片动起来、视频压缩、特效字幕、画笔标记等多个功能,助你轻松制作火爆朋友圈的视频和图片. #微商 #微商视频助手 频道 https://t.me/ZYPD123

封面图片

Bark,一个模拟声音的开源AI项目

Bark,一个模拟声音的开源AI项目 可以生成所有类型的音频,并且基本上看不出与真实语音、音乐间的区别。这些音频包括音乐、背景噪音和一些简单的音效。是的,你没听错,你甚至可以拿它来生成音乐。该模型还可以产生非语言交流,如笑、叹息和哭泣。 Bark 支持各种语言,开箱即用,并根据输入文本自动确定语言。当提示使用代码切换文本时,Bark 将尝试使用相应语言的本地口音。英语质量目前是最好的,估计其他语言会随着扩展而进一步提高。 #AI 来自:雷锋 频道:@kejiqu 群组:@kejiquchat 投稿:@kejiqubot

封面图片

微软的 VASA-1 模型根据一张照片和一条音轨生成该人的说话视频

微软的 VASA-1 模型根据一张照片和一条音轨生成该人的说话视频 微软亚洲研究院发布了模型,该模型能根据一个人的一张照片和一条音轨生成其说话或唱歌的同步动画视频。VASA 代表 Visual Affective Skills Animator,它使用了机器学习分析静态图像和音频片段,然后生成有精确面部表情、头部运动以及与音频口型同步的逼真视频。微软声称该模型在真实性、表现力和效率方面显著优于以前的语音动画方法。微软研究员使用了 VoxCeleb2 数据集训练了 VASA-1。该数据集包含了 6112 位名人的逾 100 万条话语,提取自上传到 YouTube 的视频。VASA-1 能以每秒最高 40 帧的速度生成 512x512 像素分辨率的视频,它潜在可用于深度伪造,研究人员没有公开模型源代码。#视频 来源 , 频道:@kejiqu 群组:@kejiquchat

封面图片

【蚂蚁链推出版权AI计算引擎】

【蚂蚁链推出版权AI计算引擎】 4月26日是第二十二个世界知识产权日。蚂蚁链今日宣布,其曾经获得入选顶会的技术已经产品化并商业化,这一名为“版权AI计算引擎”的产品将对相似内容的提取精确到“帧”,直接以“秒”为单位反馈比对内容的相似片段和相似度。 蚂蚁链的版权AI计算引擎利用人工智能技术,据介绍,这一计算引擎对于切条、搬运、混剪等视频侵权行为的识别成功率接近99%。这一产品可以快速提取音频视频特征,在短时间内完成对相似内容的自动识别和判断。此外,该计算引擎还可以对相似内容的提取精确到“帧”,直接以“秒”为单位反馈比对内容的相似片段和相似度,“细颗粒度”识别,极大的提高了效率,同时也降低了门槛。

封面图片

蚂蚁集团CEO胡晓明(花名:孙权)向内部发布邮件,表示自己将辞去蚂蚁集团CEO一职,未来将负责蚂蚁生态社会公益相关项目。蚂蚁集团

蚂蚁集团CEO胡晓明(花名:孙权)向内部发布邮件,表示自己将辞去蚂蚁集团CEO一职,未来将负责蚂蚁生态社会公益相关项目。蚂蚁集团董事长井贤栋将兼任蚂蚁金服CEO。 对此,蚂蚁集团方面表示:情况属实,董事会基于个人意愿同意这一请求,感谢胡晓明对公司的努力和付出。 (中华网财经,南华早报)

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人