抖音跳舞不用真人出镜 一张照片就能生成高质量视频

抖音跳舞不用真人出镜一张照片就能生成高质量视频真实的打开方式是这样的:这就是来自新加坡国立大学和字节跳动最新的一项研究,名叫MagicAnimate。它的作用简单来说可以总结为一个公式:一张图片+一组动作=毫无违和感的视频。然后啊,这项技术一经公布,可谓是在科技圈里掀起了不小的波澜,众多科技大佬和极客们纷纷下场耍了起来。就连HuggingFaceCTO都拿自己的头像体验了一把:顺便还风趣地开了句玩笑:这算是健身了吧?我这周可以不去健身房了。还有相当与时俱进的网友,拿着刚出炉的GTA6(侠盗猎车手6)预告片中的人物玩了一把:甚至就连表情包们也成了网友们pick的对象……MagicAnimate可以说是把科技圈的目光聚焦到了自己身上,因此也有网友调侃说:OpenAI可以休息一下了。火,着实是火。一张图即可生成一段舞那么如此火爆的MagicAnimate,该如何“食用”?话不多说,我们现在就来手把手地体验一次。目前项目团队已经在HuggingFace中开放了在线体验的页面:操作也是非常得简单,只需三步即可:上传一张静态人物照片上传想要生成的动作demo视频调整参数,点击“Animate”即可例如下面就是鄙人照片和一段近期席卷全球的《科目三》舞蹈片段:△视频源:抖音(ID:QC0217)也可以选择页面下方提供的模版进行体验:不过需要注意的是,由于MagicAnimate目前过于火爆,在生成的过程中可能会出现“宕机”的情况:即便成功“食用”,可能也得排大队……(没错!截至发稿,还是没有等到结果!)除此之外,MagicAnimate在GitHub中也给出了本地体验的方式,感兴趣的小伙伴可以试试哦~那么接下来的一个问题便是:怎么做到的?整体而言,MagicAnimate采用的是基于扩散模型(diffusion)的一个框架,目的就是增强时间一致性、保持参考图像的真实性,并提高动画保真度。为此,团队首先开发了一个视频扩散模型(TemporalConsistencyModeling)来编码时间信息。这个模型通过在扩散网络中加入时间注意力模块,来编码时间信息,从而确保动画中各帧之间的时间一致性。其次,为了保持帧间的外观一致性,团队引入了一种新的外观编码器(AppearanceEncoder)来保留参考图像的复杂细节。这个编码器与以往使用CLIP编码的方法不同,能够提取密集的视觉特征来引导动画,从而更好地保留身份、背景和服装等信息。在这两项创新技术的基础之上,团队进一步采用了一种简单的视频融合技术(VideoFusionTechnique)来促进长视频动画的平滑过渡。最终,在两个基准上的实验表明,MagicAnimate的结果要远优于以往的方法。尤其是在具有挑战性的TikTok舞蹈数据集上,MagicAnimate在视频保真度方面比最强基线高出38%以上!团队所给出的定性比较如下:以及与cross-ID的SOTA基线相比,结果如下:OneMoreThing不得不说,诸如MagicAnimate的项目最近着实是有点火爆。这不,在它“出道”前不久,阿里团队也发布了一个名叫AnimateAnyone的项目,同样是只要“一张图”和“想要的动作”:由此,也有网友发出了疑问:这似乎是MagicAnimate和AnimateAnyone之间的战争。谁更胜一筹?...PC版:https://www.cnbeta.com.tw/articles/soft/1402409.htm手机版:https://m.cnbeta.com.tw/view/1402409.htm

相关推荐

封面图片

阿里云通义千问 App 上线“通义舞王”:一张照片就能生成跳舞视频

阿里云旗下的通义千问App近日上线了一项免费的新功能“通义舞王”:用户在按照提示要求上传照片后,经过十几分钟的等待,即可自动生成舞蹈视频。据介绍,该功能背后的算法为阿里通义实验室自研的视频生成模型AnimateAnyone。用户使用人物全身照片生成的舞蹈视频号称能够保留原始形象的面部表情、身材比例、服装乃至背景等特征。当前该功能内置了12种舞蹈模板,包括当前较为热门的“科目三”,还有蒙古舞、划桨舞、鬼步舞等等。via匿名标签:#通义千问频道:@GodlyNews1投稿:@GodlyNewsBot

封面图片

微软的 VASA-1 模型根据一张照片和一条音轨生成该人的说话视频

微软的VASA-1模型根据一张照片和一条音轨生成该人的说话视频微软亚洲研究院发布了模型,该模型能根据一个人的一张照片和一条音轨生成其说话或唱歌的同步动画视频。VASA代表VisualAffectiveSkillsAnimator,它使用了机器学习分析静态图像和音频片段,然后生成有精确面部表情、头部运动以及与音频口型同步的逼真视频。微软声称该模型在真实性、表现力和效率方面显著优于以前的语音动画方法。微软研究员使用了VoxCeleb2数据集训练了VASA-1。该数据集包含了6112位名人的逾100万条话语,提取自上传到YouTube的视频。VASA-1能以每秒最高40帧的速度生成512x512像素分辨率的视频,它潜在可用于深度伪造,研究人员没有公开模型源代码。来源,频道:@kejiqu群组:@kejiquchat

封面图片

一张照片生成3D头像 苹果新模型击败StyleGAN2 表情光线都能调

一张照片生成3D头像苹果新模型击败StyleGAN2表情光线都能调进行3D建模时,需要的照片素材无需专门选择角度,数量上也只需一张。甚至对表情、发型、眼镜等元素进行调节时,也不需要额外素材。而传统的头像合成工具或者需要多张图片才能工作,或者对照片角度有刁钻的要求。正是凭借这一创新,FaceLit获得了3.5的FID评分,较同类产品直接高出了25%。改进式EG3D合成人像,光线信息单独处理下面就来看一下FaceLit具体是如何实现头像合成的。总的来说,苹果采用了将人物本体与光线分别处理再进行叠加的策略。早期的三维人像合成工具在转换过程中可能产生形变。而爆火的NeRF通过将场景拆分成具体因素,提高了3D图像合成效果,改善了这一问题。但苹果团队认为,在可控性方面,NeRF仍存有不足之处。于是,在EG3D框架的基础上,苹果创造了FaceLit的合成模型。EG3D通过三平面解码器,赋予了二维卷积神经网络生成渲染3D模型所需深度参数的能力。苹果团队对标准的EG3D训练方式进行了扩展,并将之转化成了FaceLit框架。FaceLit与传统EG3D渲染流程对比图标准的ED3G使用相机位置p参数作为基本输入参数。在建立GAN2操作时,苹果在EG3D的基础上加入了光照参数l。不同p(左→右)与l(上→下)值下的初始图像苹果选择了经过球形谐波方式简化后的Phong反射模型作为处理光源的物理基础。光照参数l就是在这一基础之上独立处理得到的。在自然界中,反射包括镜面反射和漫反射两种形式。不同镜面反射率条件下的效果对比因此,苹果在ED3G模型中加入了镜面反射解码器和漫反射解码器。它们替代了可以直接得到颜色c、密度σ数据的三平面解码器。反射解码器流程示意图通过对GAN2产生的数据进行再次解码,可以得到镜面反射率ks和漫反射率kd。然后再通过两种反射着色器得到颜色c,密度σ则由漫反射解码器计算得出。最终,FaceLit以与三平面解码器相同的参数(c,w,σ)渲染图像,并进行分辨率优化。有的放矢设计训练策略,数据无需人工标注生成框架已有,那就来到训练阶段,其特点在于训练过程中无需人工标注。方法论层面,在训练时,团队使用了FFHQ、MetFaces和CelebA-HQ数据集。对于不同的数据集,苹果使用了不同的训练方式。FFHQ包含了7万余条人脸数据,其训练分为两个阶段:先在较低的分辨率下训练,再提高分辨率再次进行。对于包含2万数据量的CelebA-HQ,训练不需要分阶段进行。而对于更小的MetFAces,则只需要通过ADA扩容的方式,使用预训练的FFHQ进行优化调整即可。定性地看,训练结果在机位、光源和反射高光等方面都有出色的表现,图中的细节也有所增强。FaceLit生成的头像(左侧四列)唇齿部位的细节进行了明显重构定量结果同样表明,FaceLit在FID、KID等指标上均优于包括标准EG3D在内的传统生成方式。在使用FFHQ作为训练集的条件下,各生成方式的表现如下表,不难看出FaceLit拥有最低的FID和KID值。而相比于英伟达的StyleGAN2,FaceLit的表现依旧出色:光线准确度方面,FaceLit在使用三种不同训练数据集的情况下,与人工设定的标准值平均均方误差均低于0.01。网友:人们低估了苹果AI消息发出后,便有网友认为“这是对更重磅产品的预热”。更有网友直接推测,FaceLit的出现标示着人工智能将进军AR和VR领域,苹果的混合现实将最终实现商用……也有网友认为,FaceLit不会商用,否则苹果才不会以论文的形式发表。针对FaceLit本身,也有网友表示,除了LLM,其他都是浮云,他们(苹果)如果不开发LLM,就没有未来。但这位网友同时也说,苹果可能已经在做(LLM)了。相应的,也有网友称人们“低估了苹果在AI领域的深度”。所以各位网友对苹果在AI领域还有什么样的期待呢?...PC版:https://www.cnbeta.com.tw/articles/soft/1357791.htm手机版:https://m.cnbeta.com.tw/view/1357791.htm

封面图片

开源声音与音乐生成模型AudioLDM2 只需提供文本即可生成高质量音频

开源声音与音乐生成模型AudioLDM2只需提供文本即可生成高质量音频项目地址:https://github.com/haoheliu/AudioLDM2相比传统的Concatenative方法,该模型可以生成更流畅连贯的音频。同时,相比基于GAN的方法,它生成的音频质量更高,更符合文本描述的语义。该工具提供了命令行接口和网页应用,非专业用户也可以轻松使用。用户可以选择不同的模型检查点,生成不同风格的音频。同时,调整随机种子也可以生成不同的音频样本。总之,这是一个强大且易用的文本到音频生成工具,可以广泛应用于音乐创作、音效生成、语音合成等领域。它极大地降低了音频内容生成的门槛,对创意行业有重大帮助。该模型的出现,无疑为音频处理领域注入了新的活力,并为相关行业提供了一种全新的解决方案。未来,这个模型的应用领域还可能进一步扩展,为我们的生活带来更多惊喜。...PC版:https://www.cnbeta.com.tw/articles/soft/1380491.htm手机版:https://m.cnbeta.com.tw/view/1380491.htm

封面图片

英伟达发布 LATTE3D 模型 1 秒生成高质量 3D 效果

英伟达发布LATTE3D模型1秒生成高质量3D效果英伟达AI研究副总裁SanjaFidler所属位于多伦多的AI实验室团队在GTC2024春季场的座谈活动中,发布了LATTE3D模型并于现场进行实机展示,该技术能够高效率通过文本提示词生成3D模型,在搭配英伟达RTXA6000GPU的情况下能够几乎即时(不到1秒时间)生成3D模型,3D形状可以随意放大、旋转,360度无死角。“一年前,AI模型需要1小时才能生成这种质量的3D视觉效果,而目前的技术水平大约是10到12秒。”SanjaFidler说。

封面图片

ToonCrafter利用先进的AI技术将照片转换为卡通图像的网站。可以通过该网站将自己的照片变成高质量的卡通图像,并生成动画视

ToonCrafter利用先进的AI技术将照片转换为卡通图像的网站。可以通过该网站将自己的照片变成高质量的卡通图像,并生成动画视频。https://tooncrafter.net/#Ai

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人