微软推出VASA-1 AI框架,实现高分辨率逼真对口型人像视频的即时生成

微软推出VASA-1AI框架,实现高分辨率逼真对口型人像视频的即时生成微软公布了其最新研发的VASA-1AI框架,该技术能够利用一张真人肖像照片和一段个人语音音频,生成精确且逼真的对口型视频。这项技术特别注重面部表情和头部动作的自然性,解决了以往面部生成技术中存在的僵硬和缺乏说服力的问题,克服了恐怖谷现象。VASA-1框架通过扩散Transformer模型进行面部动态和头部运动的训练,将嘴唇动作、表情、眼睛注视和眨眼等行为视为单一潜在变量,实现了512×512分辨率40FPS的视频生成。此外,微软还采用了3D技术辅助标记人脸面部特征,并设计了损失函数,以增强面部3D结构的捕捉和重现能力。关注频道:@TestFlightCN

相关推荐

封面图片

AI 根据声音内容帮照片“对口型”,蚂蚁集团开源 EchoMimic 项目

AI根据声音内容帮照片“对口型”,蚂蚁集团开源EchoMimic项目蚂蚁集团开源了名为的新项目,其能够通过人像面部特征和音频来帮人物“对口型”,结合面部标志点和音频内容生成较为稳定、自然的视频。该项目具备较高的稳定性和自然度,通过融合音频和面部标志点(面部关键特征和结构,通常位于眼、鼻、嘴等位置)的特征,可生成更符合真实面部运动和表情变化的视频。其支持单独使用音频或面部标志点生成肖像视频,也支持将音频和人像照片相结合做出“对口型”一般的效果。据悉,其支持多语言(包含中文普通话、英语)及多风格,也可应对唱歌等场景。来源,频道:@kejiqu群组:@kejiquchat

封面图片

福特发布高分辨率大灯:将可使夜间驾驶变更安全

福特发布高分辨率大灯:将可使夜间驾驶变更安全通过使用复杂的大灯技术在道路上显示图像是我们几年前第一次看到的技术,它是梅赛德斯-奔驰通过DigitalLight展现给大家的一种新技术。然而这种新一代的东西还没有真正进入大众市场的车辆,对此,福特似乎想改变这种状况。福特欧洲公司于当地时间周一发布了其所称的高分辨率大灯。这个想法跟梅赛德斯的“DigitalLight”相同--车辆的大灯将拥有足够的分辨率从而可以以实际显示车辆前方道路上的图像。这跟现代平视显示器形成对比,后者将图像投射到挡风玻璃上。安全是福特高分辨率大灯的主要目标之一。这家公司可以通过将限速或天气信息投射到道路上以确保其司机尽最大努力安全驾驶。另外,它还可以跟汽车的转弯导航系统结合起来以在即将到来的转弯处设置指示并使其更难偏离正道。此外,该系统还可以在道路上显示车辆的宽度,从而确保司机不会试图溜进一个太小的缝隙。效益也会延伸到司机之外。如果车辆停下来,它可以在车前显示人行道,让附近的行人知道过马路是安全的。它还可以在骑自行车的人周围显示一条道路,这样就可以以更安全的方式共享道路。福特欧洲公司在其新闻稿中称,由于该汽车制造商仍在试验这项技术,因此没有宣布这项技术可能出现在哪些量产车上,不过它很可能会率先在欧洲落地。PC版:https://www.cnbeta.com/articles/soft/1304823.htm手机版:https://m.cnbeta.com/view/1304823.htm

封面图片

【中科院研制超高分辨率量子点发光二极管打开“元宇宙”通路】

【中科院研制超高分辨率量子点发光二极管打开“元宇宙”通路】福州大学教授李福山团队联合中科院宁波材料技术与工程研究所研究员钱磊,将有序分子自组装技术和转移印刷技术相结合,制备出高性能的超高分辨率量子点发光二极管。相关成果日前在线发表于《自然—光子学》。开发具有千级乃至万级PPI(每英寸所拥有的像素数目)、可在微小空间输出海量信息的极高分辨率显示器,是进入“元宇宙”的重要途径。该研究中,科研人员利用有序分子自组装技术实现了致密无缺陷的量子点单层膜,并结合转移印刷技术实现了亚微米级像素的超高分辨率量子点显示,其最高分辨率达到~25000PPI(人眼极限分辨率约为300PPI),可轻松制备出亚微米级像素的超高分辨率量子点发光二极管。

封面图片

微软的 VASA-1 模型根据一张照片和一条音轨生成该人的说话视频

微软的VASA-1模型根据一张照片和一条音轨生成该人的说话视频微软亚洲研究院发布了模型,该模型能根据一个人的一张照片和一条音轨生成其说话或唱歌的同步动画视频。VASA代表VisualAffectiveSkillsAnimator,它使用了机器学习分析静态图像和音频片段,然后生成有精确面部表情、头部运动以及与音频口型同步的逼真视频。微软声称该模型在真实性、表现力和效率方面显著优于以前的语音动画方法。微软研究员使用了VoxCeleb2数据集训练了VASA-1。该数据集包含了6112位名人的逾100万条话语,提取自上传到YouTube的视频。VASA-1能以每秒最高40帧的速度生成512x512像素分辨率的视频,它潜在可用于深度伪造,研究人员没有公开模型源代码。来源,频道:@kejiqu群组:@kejiquchat

封面图片

DNA艺术以高分辨率和1600万种色彩再现照片

DNA艺术以高分辨率和1600万种色彩再现照片DNA可以编码大量信息,这不仅仅是通过碱基排列(字母GCAT),还通过其双链结构。当双链配对并形成所谓的双链时,它们会遵循特定的规则,以确保双链的稳定性,这使得它们具有可编程性。然而,科学家们也发现,他们可以通过在程序中加入一定程度的不稳定性来扩大可能性。在一项新的研究中,维也纳大学的科学家们利用这种技术,在一块微小的画布上创作出了DNA艺术品。他们使用了与能发出红光、绿光或蓝光的荧光分子相连的小DNA链,并利用这些片段与连接在表面的更长DNA链形成双链。通过将红色、绿色和蓝色分子按不同比例混合,就能产生不同的颜色。同时,每种颜色的具体色调可以通过调整每个双链的稳定性来调整--稳定性越低,颜色越深。研究小组通过调整,为每个颜色通道调出了256种色调,开辟了1600万种独特的组合,这就是油墨和显示器中使用的RGB全色谱。随后,研究人员开始使用DNA调色板进行绘画。他们使用了一种叫做无掩模阵列合成(MAS)的技术,这种技术可以让他们一次性合成成百上千个DNA序列,并决定在画布的每个"像素"上放置哪种颜色。这样,他们就能在指甲盖大小的画布上复制数字图像,色彩深度为24位,分辨率为1024x768。该团队表示,最终应该可以将这一过程扩展到全高清甚至4K。研究小组还表示,这项技术还有助于改善DNA数据存储这一新兴领域。这项研究发表在《美国化学学会杂志》上。...PC版:https://www.cnbeta.com.tw/articles/soft/1390687.htm手机版:https://m.cnbeta.com.tw/view/1390687.htm

封面图片

YouTube播主将蓝光播放器部件变成廉价的高分辨率激光扫描显微镜

YouTube播主将蓝光播放器部件变成廉价的高分辨率激光扫描显微镜由德国YouTuberDoctorVolt设计的最近的一个DIY项目使用一个已经损坏的三星BD-J5900蓝光播放器当中的部件来组装一个激光扫描显微镜。与光学显微镜相比,基于激光的显微镜可以捕捉到更多的细节并且具有更高的放大率,因为它可以每次聚焦于一个点来消除干扰。蓝光播放器以类似的方式工作:"蓝色"二极管将405纳米的激光射向蓝光光盘表面,然后一个光学传感器根据反射的强度将反射的光线转换成二进制数字("1"或"0")。播主解释说:"通过运行同样的过程并记录每个强度测量值,就有可能创建一个激光扫描的任何物体的表面图像。分辨率是激光扫描时物理运动的一个函数。"正如他在YouTube频道上解释的那样,DoctorVolt使用了他的蓝光播放器的几个部件,加上其他塑料部件,成功创造了一个扫描设备。最终的设计可以使用16129个测量值产生图像,每次一个127×127像素的图像--黑客将其缩放为512×512像素,以方便阅读。DoctorVolt尝试用他的DIY扫描仪扫描不同种类的表面,包括一块织物、一张毫米纸、黑胶唱片的微小刘海。通过基于Java的浏览器界面渲染最终图像需要时间和耐心,但替代方案比制作DIY扫描仪的几十美元要昂贵得多。DoctorVolt估计他的激光扫描仪可以识别"大约5微米的物体",这比光学显微镜的最大放大倍数通常限制在1000倍左右的结果要好得无可比拟。DIY解决方案可能是缓慢和繁琐的,但在实验室环境中使用的商业激光扫描仪可能要花费数万美元,所以还要啥自行车。除了记录整个制作过程并将其发布在YouTube上,DoctorVolt还将复制他的项目所需的一切放在了Hackster在线社区,他描述了DIY激光扫描仪背后的零件和故事,分享了原理图,以及软件源代码:https://www.hackster.io/michalin70/laser-scanning-microscope-from-blu-ray-player-856f06播放视频:https://www.youtube.com/watch?v=Hkialty_8K4...PC版:https://www.cnbeta.com.tw/articles/soft/1336161.htm手机版:https://m.cnbeta.com.tw/view/1336161.htm

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人