国外爆火emo模型国内上线了,阿里可以让人像照片变成唱歌视频的项目 EMO 终于发布了,体验了一下非常强。

国外爆火emo模型国内上线了,阿里可以让人像照片变成唱歌视频的项目 EMO 终于发布了,体验了一下非常强。 一张简单的照片加上克隆的语音模型,就可以定制自己的数字人出镜。 Heygen 之类的产品都需要录制一段相当长的视频,并且算力成本也很高,这个直接是免费的。明天开放公测,想要提前体验的同学可以找我要一个内测邀请码。 而且不局限于写实的人像,3D 模型、 二次元漫画都可以生成视频,生成一张自己喜欢的二次元图片然后加上自己的克隆语音就可以当Vtuber了。 EMO效果为什么这么自然: 通过阅读EMO的论文发现,他们在talking head领域首次提出了weak condition(弱控制)的设计,即剔除掉了任何针对人脸的显示表征建模,转而采用一些相对较弱的控制条件来引导diffusion去噪过程,这一点其实灵感来源于文生图模型中,采用粗粒度的prompt描述来生成图片。 他们在算法pipeline中加入了face locator和speed layers,分别用来控制人脸的生成区域(人头摆动幅度)与人头的动作频率。通过这些操作,可以最大化地保留diffusion模型强大的生成创造能力,由于没有针对表情的显示表征的限制,所生成的人脸表情都会有较高的丰富度,从而表现力有较大的提升 EMO没有针对人脸生成做过多的控制,人物会做什么表情,头部会如何运动,都是由模型从数据中学习到相关的知识决定。 表情、口型的一致如何保证: 模型会在训练中找到音频特征与图像中像素的对应关系,从而放大音频特征对于这些相关像素的影响,比如嘴部,眉眼等位置的像素,让图像中的人物表情口型与音频特征保持一致。 EMO在250小时的人物讲话视频上训练,不仅仅找到了audio中具体发音与人像口型的匹配关系,更重要是发现了音频中的语气特征与人物表情的关联性,从而将音频中的语气特征,甚至暗含的情绪色彩反映到了人物微表情上,它模型在训练中慢慢学习并编码了人类表达情绪的能力。

相关推荐

封面图片

AI 根据声音内容帮照片“对口型”,蚂蚁集团开源 EchoMimic 项目

AI 根据声音内容帮照片“对口型”,蚂蚁集团开源 EchoMimic 项目 蚂蚁集团开源了名为的新项目,其能够通过人像面部特征和音频来帮人物“对口型”,结合面部标志点和音频内容生成较为稳定、自然的视频。 该项目具备较高的稳定性和自然度,通过融合音频和面部标志点(面部关键特征和结构,通常位于眼、鼻、嘴等位置)的特征,可生成更符合真实面部运动和表情变化的视频。 其支持单独使用音频或面部标志点生成肖像视频,也支持将音频和人像照片相结合做出“对口型”一般的效果。据悉,其支持多语言(包含中文普通话、英语)及多风格,也可应对唱歌等场景。来源 , 频道:@kejiqu 群组:@kejiquchat

封面图片

微软的 VASA-1 模型根据一张照片和一条音轨生成该人的说话视频

微软的 VASA-1 模型根据一张照片和一条音轨生成该人的说话视频 微软亚洲研究院发布了模型,该模型能根据一个人的一张照片和一条音轨生成其说话或唱歌的同步动画视频。VASA 代表 Visual Affective Skills Animator,它使用了机器学习分析静态图像和音频片段,然后生成有精确面部表情、头部运动以及与音频口型同步的逼真视频。微软声称该模型在真实性、表现力和效率方面显著优于以前的语音动画方法。微软研究员使用了 VoxCeleb2 数据集训练了 VASA-1。该数据集包含了 6112 位名人的逾 100 万条话语,提取自上传到 YouTube 的视频。VASA-1 能以每秒最高 40 帧的速度生成 512x512 像素分辨率的视频,它潜在可用于深度伪造,研究人员没有公开模型源代码。#视频 来源 , 频道:@kejiqu 群组:@kejiquchat

封面图片

阿里云旗下的通义千问 App 近日上线了一项免费的新功能“通义舞王”:用户在按照提示要求上传照片后,经过十几分钟的等待,即可自动

阿里云旗下的通义千问 App 近日上线了一项免费的新功能“通义舞王”:用户在按照提示要求上传照片后,经过十几分钟的等待,即可自动生成舞蹈视频。 据介绍,该功能背后的算法为阿里通义实验室自研的视频生成模型 Animate Anyone。用户使用人物全身照片生成的舞蹈视频号称能够保留原始形象的面部表情、身材比例、服装乃至背景等特征。 当前该功能内置了 12 种舞蹈模板,包括当前较为热门的“科目三”,还有蒙古舞、划桨舞、鬼步舞等等。 via 匿名 标签: #通义千问 频道: @GodlyNews1 投稿: @GodlyNewsBot

封面图片

微软展示VASA-1人工智能模型 能将照片变成"会说话的人脸"

微软展示VASA-1人工智能模型 能将照片变成"会说话的人脸" 该模型目前只是研究预览版,微软研究团队以外的任何人都无法试用,但演示视频看起来令人印象深刻。Runway 和 NVIDIA 已经推出了类似的唇部同步和头部运动技术,但这种技术的质量和逼真度似乎要高得多,可以减少嘴部伪影。这种音频驱动动画的方法也与Google研究院最近推出的VLOGGER 人工智能模型类似。VASA-1 如何工作?微软表示,这是一个新的框架,用于创建栩栩如生的会说话的人脸,专门用于虚拟人物的动画制作。示例中的所有人物都是合成的,是用 DALL-E 制作的,但如果它能为逼真的人工智能图像制作动画,那么它也能为真实的照片制作动画。在演示中,我们看到人们说话时就像在被拍摄一样,动作略显生涩,但看起来非常自然。唇语同步令人印象深刻,动作自然,嘴部上下没有其他工具中出现的假象。VASA-1 最令人印象深刻的一点似乎是,它不需要正面朝上的人像图像就能工作。其中有面向不同方向拍摄的例子。该模型似乎还具有很强的控制能力,能够将眼睛注视的方向、头部距离甚至情绪作为输入来引导生成。VASA-1 的意义何在?其中一个最明显的应用案例就是游戏中的高级唇语同步。如果能创造出具有自然唇部动作的人工智能驱动的 NPC,就能改变游戏的沉浸感。它还可用于为社交媒体视频创建虚拟化身,HeyGen 和 Synthesia 等公司已经采用了这种技术。另一个领域是基于人工智能的电影制作。如果能让人工智能歌手看起来像在唱歌,就能制作出更逼真的音乐视频。尽管如此,该团队表示,这只是一次研究演示,并没有公开发布的计划,甚至也不会提供给开发人员在产品中使用。VASA-1 的效果如何?让研究人员感到惊讶的是,VASA-1 能够完美地对歌曲进行歌词嘴型同步,尽管训练数据集中没有使用音乐,但它仍能毫无问题地反映歌手的歌词。它还能处理不同风格的图像,包括蒙娜丽莎。他们让它以每秒 45 帧的速度创建 512x512 像素的图像,使用桌面级 NVIDIA RTX 4090 GPU 可在大约 2 分钟内完成。虽然他们说这只是用于研究,但如果它不能进入公共领域,那就太可惜了,即使只是面向开发者,鉴于微软在OpenAI中拥有巨大的股份,这甚至可能成为未来 Copilot Sora 集成的一部分。 ... PC版: 手机版:

封面图片

今天阿里云的通义大模型上线了AI新品:“通义听悟”,能够很高效的完成对音频、视频内容的转写、检索、摘要和整理。

今天阿里云的通义大模型上线了AI新品:“通义听悟”,能够很高效的完成对音频、视频内容的转写、检索、摘要和整理。 我试了下,上传2小时视频的话,5分钟就生成了笔记,还可以设置成一个插件,在线看啥视频都能够扒下来逐字稿,深度学习一位up主的文案撰写能力。 当然了,我还是劝学习达人省点用,每个人可以领100小时以上的免费转写时长(目前每天上线能领俩小时)。 听悟链接: 很适合深度学习者、自媒体达人、音频存证(撕逼or维权)使用,普通人也可以去玩一下,体验还是挺新潮的,转需咯~

封面图片

视频生成模型SVD刚才发布了1.1版本,我试用了一下。

视频生成模型SVD刚才发布了1.1版本,我试用了一下。 发现比上个版本的进步非常多,之前的几个比较大的问题都有了改善,这下终于是一个可用的模型了。 我测评了多种风格的内容,主要是图片生成视频,图片由MJ生成,下面是发现的一些变化: ◆XT模型本体从9G多缩小到了4G多,显存要求降低了,同时推理速度加快许多,之前跑不了的电脑这下可以试试了。 ◆整体运动幅度大幅增加,很多内容不再只是运镜了,也意味着模型真的理解了内容。 ◆生物和人像的运动幅度和一致性大幅提升,人物不再是完全不动的图片了,会进行相应的运动和跟环境交互。 ◆之前视频中的密集噪点得到了一定程度优化。 ◆2D动漫图像现在也可以动了,不过效果依然不太好。 ◆已往的强项流体运动效果依然很顶,没有负向优化。 你可以在这里下载模型: Invalid media:

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人