一张照片生成3D头像 苹果新模型击败StyleGAN2 表情光线都能调

一张照片生成3D头像苹果新模型击败StyleGAN2表情光线都能调进行3D建模时,需要的照片素材无需专门选择角度,数量上也只需一张。甚至对表情、发型、眼镜等元素进行调节时,也不需要额外素材。而传统的头像合成工具或者需要多张图片才能工作,或者对照片角度有刁钻的要求。正是凭借这一创新,FaceLit获得了3.5的FID评分,较同类产品直接高出了25%。改进式EG3D合成人像,光线信息单独处理下面就来看一下FaceLit具体是如何实现头像合成的。总的来说,苹果采用了将人物本体与光线分别处理再进行叠加的策略。早期的三维人像合成工具在转换过程中可能产生形变。而爆火的NeRF通过将场景拆分成具体因素,提高了3D图像合成效果,改善了这一问题。但苹果团队认为,在可控性方面,NeRF仍存有不足之处。于是,在EG3D框架的基础上,苹果创造了FaceLit的合成模型。EG3D通过三平面解码器,赋予了二维卷积神经网络生成渲染3D模型所需深度参数的能力。苹果团队对标准的EG3D训练方式进行了扩展,并将之转化成了FaceLit框架。FaceLit与传统EG3D渲染流程对比图标准的ED3G使用相机位置p参数作为基本输入参数。在建立GAN2操作时,苹果在EG3D的基础上加入了光照参数l。不同p(左→右)与l(上→下)值下的初始图像苹果选择了经过球形谐波方式简化后的Phong反射模型作为处理光源的物理基础。光照参数l就是在这一基础之上独立处理得到的。在自然界中,反射包括镜面反射和漫反射两种形式。不同镜面反射率条件下的效果对比因此,苹果在ED3G模型中加入了镜面反射解码器和漫反射解码器。它们替代了可以直接得到颜色c、密度σ数据的三平面解码器。反射解码器流程示意图通过对GAN2产生的数据进行再次解码,可以得到镜面反射率ks和漫反射率kd。然后再通过两种反射着色器得到颜色c,密度σ则由漫反射解码器计算得出。最终,FaceLit以与三平面解码器相同的参数(c,w,σ)渲染图像,并进行分辨率优化。有的放矢设计训练策略,数据无需人工标注生成框架已有,那就来到训练阶段,其特点在于训练过程中无需人工标注。方法论层面,在训练时,团队使用了FFHQ、MetFaces和CelebA-HQ数据集。对于不同的数据集,苹果使用了不同的训练方式。FFHQ包含了7万余条人脸数据,其训练分为两个阶段:先在较低的分辨率下训练,再提高分辨率再次进行。对于包含2万数据量的CelebA-HQ,训练不需要分阶段进行。而对于更小的MetFAces,则只需要通过ADA扩容的方式,使用预训练的FFHQ进行优化调整即可。定性地看,训练结果在机位、光源和反射高光等方面都有出色的表现,图中的细节也有所增强。FaceLit生成的头像(左侧四列)唇齿部位的细节进行了明显重构定量结果同样表明,FaceLit在FID、KID等指标上均优于包括标准EG3D在内的传统生成方式。在使用FFHQ作为训练集的条件下,各生成方式的表现如下表,不难看出FaceLit拥有最低的FID和KID值。而相比于英伟达的StyleGAN2,FaceLit的表现依旧出色:光线准确度方面,FaceLit在使用三种不同训练数据集的情况下,与人工设定的标准值平均均方误差均低于0.01。网友:人们低估了苹果AI消息发出后,便有网友认为“这是对更重磅产品的预热”。更有网友直接推测,FaceLit的出现标示着人工智能将进军AR和VR领域,苹果的混合现实将最终实现商用……也有网友认为,FaceLit不会商用,否则苹果才不会以论文的形式发表。针对FaceLit本身,也有网友表示,除了LLM,其他都是浮云,他们(苹果)如果不开发LLM,就没有未来。但这位网友同时也说,苹果可能已经在做(LLM)了。相应的,也有网友称人们“低估了苹果在AI领域的深度”。所以各位网友对苹果在AI领域还有什么样的期待呢?...PC版:https://www.cnbeta.com.tw/articles/soft/1357791.htm手机版:https://m.cnbeta.com.tw/view/1357791.htm

相关推荐

封面图片

微软的 VASA-1 模型根据一张照片和一条音轨生成该人的说话视频

微软的VASA-1模型根据一张照片和一条音轨生成该人的说话视频微软亚洲研究院发布了模型,该模型能根据一个人的一张照片和一条音轨生成其说话或唱歌的同步动画视频。VASA代表VisualAffectiveSkillsAnimator,它使用了机器学习分析静态图像和音频片段,然后生成有精确面部表情、头部运动以及与音频口型同步的逼真视频。微软声称该模型在真实性、表现力和效率方面显著优于以前的语音动画方法。微软研究员使用了VoxCeleb2数据集训练了VASA-1。该数据集包含了6112位名人的逾100万条话语,提取自上传到YouTube的视频。VASA-1能以每秒最高40帧的速度生成512x512像素分辨率的视频,它潜在可用于深度伪造,研究人员没有公开模型源代码。来源,频道:@kejiqu群组:@kejiquchat

封面图片

科技巨头狂撒千亿美元 “买照片” 只为训练AI模型?

科技巨头狂撒千亿美元“买照片”只为训练AI模型?不只是Photobucket,Reddit、Youtube等知名网站都成了科技巨头们的疯抢目标。苹果为训练AI买图片,网友担忧隐私Photobucket是一个提供影像寄存、视频寄存、幻灯片制作与照片分享服务网站,成立于2003年。在当时,用户把这个网站当作个人相册,与功能与现在流行的在线相册非常相似。在巅峰期,该网站曾拥有7000万用户。而到2007年,Photobucket就声称已有超过28亿张图像上传到其网站。不过随着越来越多的功能更强大的在线相册App出现之后,这种网站式的在线相册也逐渐失去了热度。不过毕竟是一家成立二十多年的网站,别的不说,数据是真的多,130亿张图片与视频,足够AI模型消化很久。据悉,苹果购买的图片的主要目的就是提高生成式AI的水平。除此之外,苹果公司在早些时候与另一家图片素材网站Shutterstock达成了数百万张图片的授权协议,据悉这笔交易的价值在2500万美元到5000万美元之间。随着今年6月份WWDC大会日益临近,每个人都在期待苹果公司能带来“令人惊叹”的AI功能。但和上笔交易不同,不少网友开始为了隐私担心。有人评论表示,Photobucket的图片来源都是基于网友的“托管,这就意外着这些图片虽然已经是陈年老图,但仍属于用户的个人秘密。而Shutterstock的数据大多是免版税的图片、矢量图和插图库,包括影片剪辑以及音乐曲目,本身就可以授权给用户使用。这么一对比,网友对于Photobucket的数据隐私安全问题也可以理解了。除了涉及隐私以外,不少网友还对这些库存照片的质量提出了质疑。如果给AI喂食这些本来就带有错误的图片,那么是否会生成质量更低的图片呢?总之,就苹果购买Photobucket图片的行为,大多数网友并不赞同。但即使冒着泄露隐私的风险,苹果和其他公司们还是得“铤而走险”搞来这些数据。主要原因还是高质量的互联网数据,可能没几年就要耗尽了。其实早在多年前,各大科技巨头就已经碰到训练语料缺失的瓶颈。据《纽约时报》报道,OpenAI在训练GPT-4时,就曾遇到英文文本资料缺失的情况。为了处理这个问题,OpenAI推出一款名为Whisper语音识别工具,用来转录Google旗下视频平台Youtube的视频音频,生成大量的对话文本。据报道称,这款工具以开源的名义转录了超过一百万小时的Youtube视频,实际上已经违反了Youtube的隐私规则,而这些资料也成为ChatGPT的基础。这并不是OpenAI第一次因为偷扒数据犯错。包括《纽约时报》在内,多家数字新闻媒体对OpenAI提起版权侵权诉讼,认为他们的数千篇报道被OpenAI用来训练ChatGPT。当然,通过“爬虫”等手段搜刮训练数据的科技公司不止OpenAI这一家,“受害者”Google也曾通过修改服务条款的方式,将“使用公开信息训练AI模型”偷偷写进隐私细则中,从而允许工程师们利用公开的文档、在线资料等开发AI产品。不过随着OpenAI在版权问题上越陷越深,其他科技巨头也只能乖乖掏钱为训练数据付费。至少比起互联网上免费抓取的数据,Photobucket近130亿的数据量还是相对来说质量更高点。花钱买数据,或许还不够可怕的是,即便是130亿的数据量,也可能喂不饱现在的AI的模型。研究机构Epoch直白地表示,现在科技公司使用数据的速度已经超过数据生产的速度,这些公司最快会在2026年就耗尽互联网上的高质量数据。有数据统计,在2020年11月发布的GPT-3上,使用了3000亿个Token的训练数据。而到了2024年,GooglePaLM2的训练数据量则达到3.6万亿个Token。数据量是一回事,数据的质量更是直接影响AI大模型的生成能力。正如网友所担忧的那样,低质量的数据甚至可能让AI陷入不可逆转的方向。面对这样的问题,OpenAI开始尝试使用合成数据(AI生成的数据)来训练AI。这样既可以减少对受版权保护数据的依赖,同时也能训练出更强大的结果。对此OpenAI和一系列机构开始研究使用两个不同的模型来生成更有用、更可靠的合成数据,其中一个模型用来生成数据,另一个则用来对生成的数据进行审核。不只是OpenAI,英伟达很早就在用合成数据弥补现实世界的数据。在2021年11月,英伟达对外推出合成数据生成引擎OmniverseReplicator。英伟达将其描述为“用于生成具有基本事实的合成数据以训练AI网络的引擎”,其作用就是用来训练AI。此产品推出后,由该引擎生成的合成数据在自动驾驶、机器人等多个场景里都得到了验证,因此英伟达也在近些年希望将其推广到更多领域,包括聊天机器人。然而,合成数据在工业场景里的成功案例,并不代表在其他领域都能遵循物理规律。有时候AI连真实图片都无法理解,更不要说理解二次生成的图片了。...PC版:https://www.cnbeta.com.tw/articles/soft/1426842.htm手机版:https://m.cnbeta.com.tw/view/1426842.htm

封面图片

抖音跳舞不用真人出镜 一张照片就能生成高质量视频

抖音跳舞不用真人出镜一张照片就能生成高质量视频真实的打开方式是这样的:这就是来自新加坡国立大学和字节跳动最新的一项研究,名叫MagicAnimate。它的作用简单来说可以总结为一个公式:一张图片+一组动作=毫无违和感的视频。然后啊,这项技术一经公布,可谓是在科技圈里掀起了不小的波澜,众多科技大佬和极客们纷纷下场耍了起来。就连HuggingFaceCTO都拿自己的头像体验了一把:顺便还风趣地开了句玩笑:这算是健身了吧?我这周可以不去健身房了。还有相当与时俱进的网友,拿着刚出炉的GTA6(侠盗猎车手6)预告片中的人物玩了一把:甚至就连表情包们也成了网友们pick的对象……MagicAnimate可以说是把科技圈的目光聚焦到了自己身上,因此也有网友调侃说:OpenAI可以休息一下了。火,着实是火。一张图即可生成一段舞那么如此火爆的MagicAnimate,该如何“食用”?话不多说,我们现在就来手把手地体验一次。目前项目团队已经在HuggingFace中开放了在线体验的页面:操作也是非常得简单,只需三步即可:上传一张静态人物照片上传想要生成的动作demo视频调整参数,点击“Animate”即可例如下面就是鄙人照片和一段近期席卷全球的《科目三》舞蹈片段:△视频源:抖音(ID:QC0217)也可以选择页面下方提供的模版进行体验:不过需要注意的是,由于MagicAnimate目前过于火爆,在生成的过程中可能会出现“宕机”的情况:即便成功“食用”,可能也得排大队……(没错!截至发稿,还是没有等到结果!)除此之外,MagicAnimate在GitHub中也给出了本地体验的方式,感兴趣的小伙伴可以试试哦~那么接下来的一个问题便是:怎么做到的?整体而言,MagicAnimate采用的是基于扩散模型(diffusion)的一个框架,目的就是增强时间一致性、保持参考图像的真实性,并提高动画保真度。为此,团队首先开发了一个视频扩散模型(TemporalConsistencyModeling)来编码时间信息。这个模型通过在扩散网络中加入时间注意力模块,来编码时间信息,从而确保动画中各帧之间的时间一致性。其次,为了保持帧间的外观一致性,团队引入了一种新的外观编码器(AppearanceEncoder)来保留参考图像的复杂细节。这个编码器与以往使用CLIP编码的方法不同,能够提取密集的视觉特征来引导动画,从而更好地保留身份、背景和服装等信息。在这两项创新技术的基础之上,团队进一步采用了一种简单的视频融合技术(VideoFusionTechnique)来促进长视频动画的平滑过渡。最终,在两个基准上的实验表明,MagicAnimate的结果要远优于以往的方法。尤其是在具有挑战性的TikTok舞蹈数据集上,MagicAnimate在视频保真度方面比最强基线高出38%以上!团队所给出的定性比较如下:以及与cross-ID的SOTA基线相比,结果如下:OneMoreThing不得不说,诸如MagicAnimate的项目最近着实是有点火爆。这不,在它“出道”前不久,阿里团队也发布了一个名叫AnimateAnyone的项目,同样是只要“一张图”和“想要的动作”:由此,也有网友发出了疑问:这似乎是MagicAnimate和AnimateAnyone之间的战争。谁更胜一筹?...PC版:https://www.cnbeta.com.tw/articles/soft/1402409.htm手机版:https://m.cnbeta.com.tw/view/1402409.htm

封面图片

OpenAI发布Shap・E模型:通过输入文本创建逼真3D模型

OpenAI发布Shap・E模型:通过输入文本创建逼真3D模型OpenAI最近发布了名为Shap・E的模型,可以通过输入文本创建逼真且多样化的3D模型。这种模型与现有的只能输出点云或体素的模型不同,可以生成高质量的3D资产,具有细粒度纹理和复杂形状。Shap・E不仅仅是一个3D模型生成器,而且可以直接生成隐式函数的参数,这些参数可以用于渲染纹理网格和神经辐射场(NeRF)。NeRF是一种具有隐式场景表示的新型视场合成技术,在计算机视觉领域引起了广泛的关注。它可以用于视图合成和三维重建,广泛应用于机器人、城市地图、自主导航、虚拟现实/增强现实等领域。值得注意的是,Shap・E模型还可以生成神经辐射场,这是一种新型的三维场景表示方法。通过这种方法,Shap・E可以呈现更加真实的光照效果和材质感,让3D图像更加生动、逼真。未来,这种模型可能会被广泛应用于游戏、电影、建筑等领域,为人们带来更加精彩、逼真的视觉体验。#AI来源,https://github.com/openai/shap-e来自:雷锋频道:@kejiqu群组:@kejiquchat投稿:@kejiqubot

封面图片

阿里巴巴开源1100亿参数Qwen1.5-110B模型,性能与Meta Llama3-70B相当

阿里巴巴开源1100亿参数Qwen1.5-110B模型,性能与MetaLlama3-70B相当阿里巴巴开源了Qwen1.5系列的首个千亿参数模型Qwen1.5-110B,其在基础能力评估中与Meta的Llama3-70B模型相当,并在Chat评估中表现出色。该模型采用Transformer解码器架构,支持32Ktokens上下文长度和多语言。性能提升主要来自模型规模增加,而非预训练方法改变。在MT-Bench和AlpacaEval2.0评估中,110B模型比72B模型有显著提升,证实了大规模模型的优势。Qwen1.5-110B是系列中规模最大的模型,性能优于72B模型。关注频道@TestFlightCN

封面图片

中国电信发布新一代3D数字人:几张照片就能快速生成

中国电信发布新一代3D数字人:几张照片就能快速生成只需要几张照片就可以快速生成自己的超写实3D数字人,高度还原了面部形状、褶皱、五官形状、皮肤纹理等细节。在该技术下3D数字人制作时间可从1个月缩短至3天,人工参与步骤相比原来减少80%。同时自研了一套半自动拓扑绑定流程,可精细到眼角、嘴角级稳定拓扑,支持微表情级的动作表达。最终结合自研的驱动引擎和渲染引擎,让数字人在动作及情绪表达上有更多的可能性。...PC版:https://www.cnbeta.com.tw/articles/soft/1396177.htm手机版:https://m.cnbeta.com.tw/view/1396177.htm

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人