微软这个VASA-1通过照片和声音生成人物说话视频的项目强的有点离谱。
微软这个VASA-1通过照片和声音生成人物说话视频的项目强的有点离谱。 从显示效果来看基本不存在瑕疵了。视频生成的技术瓶颈又一个被突破。 项目特点: 可以捕捉到大量的情感和表情细微差别以及自然的头部动作,从而增强真实感和生动感。 支持接受可选信号作为条件,例如主眼注视方向和头部距离,以及情绪偏移。 能够处理超出训练分布的照片和音频输入。它可以处理艺术照片、歌唱音频和非英语语音。 支持表情和姿势的编辑。 在离线批处理模式下以每秒 45 帧的速度生成 512x512 大小的视频帧,在在线流模式下可支持高达每秒 40 帧的速度,之前的延迟时间仅为 170 毫秒。 项目地址:
在Telegram中查看相关推荐

🔍 发送关键词来寻找群组、频道或视频。
启动SOSO机器人