微软的 VASA-1 模型根据一张照片和一条音轨生成该人的说话视频

微软的 VASA-1 模型根据一张照片和一条音轨生成该人的说话视频 微软亚洲研究院发布了模型,该模型能根据一个人的一张照片和一条音轨生成其说话或唱歌的同步动画视频。VASA 代表 Visual Affective Skills Animator,它使用了机器学习分析静态图像和音频片段,然后生成有精确面部表情、头部运动以及与音频口型同步的逼真视频。微软声称该模型在真实性、表现力和效率方面显著优于以前的语音动画方法。微软研究员使用了 VoxCeleb2 数据集训练了 VASA-1。该数据集包含了 6112 位名人的逾 100 万条话语,提取自上传到 YouTube 的视频。VASA-1 能以每秒最高 40 帧的速度生成 512x512 像素分辨率的视频,它潜在可用于深度伪造,研究人员没有公开模型源代码。#视频 来源 , 频道:@kejiqu 群组:@kejiquchat

相关推荐

封面图片

微软展示VASA-1人工智能模型 能将照片变成"会说话的人脸"

微软展示VASA-1人工智能模型 能将照片变成"会说话的人脸" 该模型目前只是研究预览版,微软研究团队以外的任何人都无法试用,但演示视频看起来令人印象深刻。Runway 和 NVIDIA 已经推出了类似的唇部同步和头部运动技术,但这种技术的质量和逼真度似乎要高得多,可以减少嘴部伪影。这种音频驱动动画的方法也与Google研究院最近推出的VLOGGER 人工智能模型类似。VASA-1 如何工作?微软表示,这是一个新的框架,用于创建栩栩如生的会说话的人脸,专门用于虚拟人物的动画制作。示例中的所有人物都是合成的,是用 DALL-E 制作的,但如果它能为逼真的人工智能图像制作动画,那么它也能为真实的照片制作动画。在演示中,我们看到人们说话时就像在被拍摄一样,动作略显生涩,但看起来非常自然。唇语同步令人印象深刻,动作自然,嘴部上下没有其他工具中出现的假象。VASA-1 最令人印象深刻的一点似乎是,它不需要正面朝上的人像图像就能工作。其中有面向不同方向拍摄的例子。该模型似乎还具有很强的控制能力,能够将眼睛注视的方向、头部距离甚至情绪作为输入来引导生成。VASA-1 的意义何在?其中一个最明显的应用案例就是游戏中的高级唇语同步。如果能创造出具有自然唇部动作的人工智能驱动的 NPC,就能改变游戏的沉浸感。它还可用于为社交媒体视频创建虚拟化身,HeyGen 和 Synthesia 等公司已经采用了这种技术。另一个领域是基于人工智能的电影制作。如果能让人工智能歌手看起来像在唱歌,就能制作出更逼真的音乐视频。尽管如此,该团队表示,这只是一次研究演示,并没有公开发布的计划,甚至也不会提供给开发人员在产品中使用。VASA-1 的效果如何?让研究人员感到惊讶的是,VASA-1 能够完美地对歌曲进行歌词嘴型同步,尽管训练数据集中没有使用音乐,但它仍能毫无问题地反映歌手的歌词。它还能处理不同风格的图像,包括蒙娜丽莎。他们让它以每秒 45 帧的速度创建 512x512 像素的图像,使用桌面级 NVIDIA RTX 4090 GPU 可在大约 2 分钟内完成。虽然他们说这只是用于研究,但如果它不能进入公共领域,那就太可惜了,即使只是面向开发者,鉴于微软在OpenAI中拥有巨大的股份,这甚至可能成为未来 Copilot Sora 集成的一部分。 ... PC版: 手机版:

封面图片

微软这个VASA-1通过照片和声音生成人物说话视频的项目强的有点离谱。

微软这个VASA-1通过照片和声音生成人物说话视频的项目强的有点离谱。 从显示效果来看基本不存在瑕疵了。视频生成的技术瓶颈又一个被突破。 项目特点: 可以捕捉到大量的情感和表情细微差别以及自然的头部动作,从而增强真实感和生动感。 支持接受可选信号作为条件,例如主眼注视方向和头部距离,以及情绪偏移。 能够处理超出训练分布的照片和音频输入。它可以处理艺术照片、歌唱音频和非英语语音。 支持表情和姿势的编辑。 在离线批处理模式下以每秒 45 帧的速度生成 512x512 大小的视频帧,在在线流模式下可支持高达每秒 40 帧的速度,之前的延迟时间仅为 170 毫秒。 项目地址:

封面图片

:DeepMind视频音频生成技术,为无声创造同步音轨的创新工具,结合像素和自然语言提示生成丰富的音景

:DeepMind视频音频生成技术,为无声视频创造同步音轨的创新工具,结合视频像素和自然语言提示生成丰富的音景 - DeepMind研发了视频到音频(V2A)技术,可以利用视频像素和文本提示生成与视频同步的丰富音轨。 - V2A可与像Veo这样的视频生成模型配合使用,为视频添加戏剧性配乐、逼真音效或与视频角色和语气匹配的对话。 - V2A也可以为各类传统镜头生成音轨,如档案素材、无声电影等,拓宽创作空间。 - V2A支持无限生成音轨,允许定义正向和负向提示来指导生成所需的音频。 - V2A使用基于扩散的方法,先编码视觉输入,然后模型逐步从随机噪声中提炼音频。这个过程同时利用视觉输入和文本提示进行指导。 - 为提高音频质量,训练中加入了AI生成的含音频详细描述和语音转录的注释信息。 - V2A可理解原始像素,添加文本提示是可选的。它也无需人工调整生成音频与视频的对齐。 - 当前局限包括视频失真可影响音频质量,语音同步存在待改进之处。 - DeepMind将采取负责任的方式开发和部署V2A,正在与顶级创作者合作改进技术,并加入合成识别工具SynthID以防范技术误用。 - V2A正在进行安全评估,初始结果显示它是使生成视频栩栩如生的有前景技术。

封面图片

ℹ字节跳动研发用单一张照片就能生成逼真、带有情感、能说话的面部动画「DREAM-Talk」#

ℹ字节跳动研发用单一张照片就能生成逼真、带有情感、能说话的面部动画「DREAM-Talk」# 由跨国网际网路技术公司字节跳动和美国德克萨斯州大学达拉斯分校合作研发基于扩散的情感驱动语音方式来生成能说话的逼真面部动画「DREAM-Ta...

封面图片

微软计划将 OpenAI 的 Sora 视频生成模型整合进 Copilot

微软计划将 OpenAI 的 Sora 视频生成模型整合进 Copilot 微软广告和网络服务部门 CEO Mikhail Parakhin 近日在推特与网友互动时表示,OpenAI 开发的视频生成器 Sora 将最终与 Copilot 集成,但需要一些时间。 将这两款工具整合在一起有可能为开发人员创造一个强大的利器,让他们能够在工作中利用这两个 AI 模型的强大功能。考虑到 Sora 几天前才刚刚公开测试,还需要一段时间才能在 Copilot 中使用。 虽然 Parakhin 的并未提供 Sora 与 Copilot 集成的具体时间表,不过他的回复表明微软最终致力于实现这一目标。来源 , 频道:@kejiqu 群组:@kejiquchat

封面图片

是Google研究的一种新的移动端文本生成图像的方法,专为移动设备设计,是一种高效的潜在扩散模型,能够在半秒内生成高质量的512

是Google研究的一种新的移动端文本生成图像的方法,专为移动设备设计,是一种高效的潜在扩散模型,能够在半秒内生成高质量的512x512图像。 MobileDiffusion的设计遵循潜扩散模型,包括三个组件:文本编码器、扩散UNet和图像解码器。 MobileDiffusion通过优化模型架构,包括Diffusion UNet和图像解码器,展现了在计算效率上的出色表现,该技术有望在移动设备上推动快速图像生成体验,拓展了生成模型在提高用户体验和应对隐私问题方面的潜在应用。

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人