阿里云宣布自研 EMO 模型上线通义 App,用照片 + 音频生成唱歌视频 - IT之家

None

相关推荐

封面图片

通义千问大模型 App iOS 版上线:支持创 #抽屉IT

封面图片

Meta开源了AI 音频生成工具 AudioCraft,包含 3 个模型:

Meta开源了AI 音频生成工具 AudioCraft,包含 3 个模型: - MusicGen 文本生成音乐 - AudioGen 文本生成音频 - EnCodec 损失更少的音频压缩 || MusicGen在HuggingFace 上的

封面图片

今天阿里云的通义大模型上线了AI新品:“通义听悟”,能够很高效的完成对音频、视频内容的转写、检索、摘要和整理。

今天阿里云的通义大模型上线了AI新品:“通义听悟”,能够很高效的完成对音频、视频内容的转写、检索、摘要和整理。 我试了下,上传2小时视频的话,5分钟就生成了笔记,还可以设置成一个插件,在线看啥视频都能够扒下来逐字稿,深度学习一位up主的文案撰写能力。 当然了,我还是劝学习达人省点用,每个人可以领100小时以上的免费转写时长(目前每天上线能领俩小时)。 听悟链接: 很适合深度学习者、自媒体达人、音频存证(撕逼or维权)使用,普通人也可以去玩一下,体验还是挺新潮的,转需咯~

封面图片

国外爆火emo模型国内上线了,阿里可以让人像照片变成唱歌视频的项目 EMO 终于发布了,体验了一下非常强。

国外爆火emo模型国内上线了,阿里可以让人像照片变成唱歌视频的项目 EMO 终于发布了,体验了一下非常强。 一张简单的照片加上克隆的语音模型,就可以定制自己的数字人出镜。 Heygen 之类的产品都需要录制一段相当长的视频,并且算力成本也很高,这个直接是免费的。明天开放公测,想要提前体验的同学可以找我要一个内测邀请码。 而且不局限于写实的人像,3D 模型、 二次元漫画都可以生成视频,生成一张自己喜欢的二次元图片然后加上自己的克隆语音就可以当Vtuber了。 EMO效果为什么这么自然: 通过阅读EMO的论文发现,他们在talking head领域首次提出了weak condition(弱控制)的设计,即剔除掉了任何针对人脸的显示表征建模,转而采用一些相对较弱的控制条件来引导diffusion去噪过程,这一点其实灵感来源于文生图模型中,采用粗粒度的prompt描述来生成图片。 他们在算法pipeline中加入了face locator和speed layers,分别用来控制人脸的生成区域(人头摆动幅度)与人头的动作频率。通过这些操作,可以最大化地保留diffusion模型强大的生成创造能力,由于没有针对表情的显示表征的限制,所生成的人脸表情都会有较高的丰富度,从而表现力有较大的提升 EMO没有针对人脸生成做过多的控制,人物会做什么表情,头部会如何运动,都是由模型从数据中学习到相关的知识决定。 表情、口型的一致如何保证: 模型会在训练中找到音频特征与图像中像素的对应关系,从而放大音频特征对于这些相关像素的影响,比如嘴部,眉眼等位置的像素,让图像中的人物表情口型与音频特征保持一致。 EMO在250小时的人物讲话视频上训练,不仅仅找到了audio中具体发音与人像口型的匹配关系,更重要是发现了音频中的语气特征与人物表情的关联性,从而将音频中的语气特征,甚至暗含的情绪色彩反映到了人物微表情上,它模型在训练中慢慢学习并编码了人类表达情绪的能力。

封面图片

AI图片生成 AI视频生成工具 限免 快手大模型团队自研打造-可灵 AI

AI图片生成 AI视频生成工具 限免 快手大模型团队自研打造-可灵 AI #AI工具 #趣站 #AI #AI图片生成 #AI视频生成 https://www.ahhhhfs.com/60059/

封面图片

RT 宝玉SoundStorm:高效并行音频生成

RT 宝玉 SoundStorm:高效并行音频生成 SoundStorm是Google发布的一个用于高效、非自回归音频生成的模型。 看了下项目首页上的演示,我觉得生成速度还罢了,它的演示音频让我觉得厉害的地方是只要3秒的样本,就能按照原本说话的音色生成后续的音频,而且很自然。… AK: SoundStorm: Efficient Parallel Audio Generation SoundStorm generates 30 seconds of audio in 0.5 seconds on a TPU-v4. Demonstrate the ability of model to scale audio generation to longer sequences by synthesizing high-quality, natural dialogue segments, given a transcript…

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人