阿里又tm 整了个大活,输入图片和音频就可以生成富有表现力的视频,并且嘴型是可以跟声音匹配的。

阿里又tm整了个大活,输入图片和音频就可以生成富有表现力的视频,并且嘴型是可以跟声音匹配的。支持多语言、谈话、唱歌以及快语速的适配,这玩意又是一个造假利器,这下可能很多名人真要说“不是我说的,你别瞎说”了。可以根据输入视频的长度生成任意持续时间的视频。实现方式:该方法主要分为两个阶段。第一阶段是“帧编码”阶段,在这个阶段,我们使用ReferenceNet来从参考图像和运动帧中提取特征。随后进入“扩散过程”阶段,在这一阶段,一个预先训练好的音频编码器用于处理音频数据的嵌入。此外,面部区域的掩码与多帧的噪声数据结合在一起,用于引导面部图像的生成过程。紧接着,我们使用BackboneNetwork来执行去噪处理。在BackboneNetwork中,我们运用了两种关键的注意力机制:一种是基于参考图像的“参考注意力(Reference-Attention)”,另一种是基于音频的“音频注意力(Audio-Attention)”。这两种机制对于确保角色的面部特征保持一致和调整角色的面部运动至关重要。最后,我们还利用了时间模块来调节图像的时间维度,使角色的运动速度得以调整。这些组合在一起构成了我们的整体框架。项目地址:https://humanaigc.github.io/emote-portrait-alive/Invalidmedia:

相关推荐

封面图片

阿里又tm 整了个大活,输入图片和音频就可以生成富有表现力的视频,并且嘴型是可以跟声音匹配的。#ai#

阿里又tm整了个大活,输入图片和音频就可以生成富有表现力的视频,并且嘴型是可以跟声音匹配的。支持多语言、谈话、唱歌以及快语速的适配,这玩意又是一个造假利器,这下可能很多名人真要说“不是我说的,你别瞎说”了。可以根据输入视频的长度生成任意持续时间的视频。实现方式:该方法主要分为两个阶段。第一阶段是“帧编码”阶段,在这个阶段,我们使用ReferenceNet来从参考图像和运动帧中提取特征。随后进入“扩散过程”阶段,在这一阶段,一个预先训练好的音频编码器用于处理音频数据的嵌入。此外,面部区域的掩码与多帧的噪声数据结合在一起,用于引导面部图像的生成过程。紧接着,我们使用BackboneNetwork来执行去噪处理。在BackboneNetwork中,我们运用了两种关键的注意力机制:一种是基于参考图像的“参考注意力(Reference-Attention)”,另一种是基于音频的“音频注意力(Audio-Attention)”。这两种机制对于确保角色的面部特征保持一致和调整角色的面部运动至关重要。最后,我们还利用了时间模块来调节图像的时间维度,使角色的运动速度得以调整。这些组合在一起构成了我们的整体框架。项目地址:

封面图片

BuboGPT:可以理解图像和音频的内容,并将这些理解与文本输入和输出相结合。

:可以理解图像和音频的内容,并将这些理解与文本输入和输出相结合。BuboGPT是由字节跳动开发的大型语言模型,能够处理多模态输入,包括文本、图像和音频,并具有将其响应与视觉对象相对应的独特能力。它可以进行细粒度的视觉理解,音频理解,以及对齐的音频-图像理解和任意音频-图像理解。BuboGPT的架构是通过学习一个共享的语义空间并进一步探索不同视觉对象和不同模态之间的细粒度关系,从而实现了包括图像、音频和文本在内的多模态理解。它的训练过程包括两个阶段:单模态预训练和多模态指令调整。在单模态预训练阶段,对应的模态Q-Former和线性投影层在大量的模态-文本配对数据上进行训练。在多模态指令调整阶段,使用高质量的多模态指令跟踪数据集对线性投影层进行微调。当你给它一个图像和一段描述图像的文本时,BuboGPT能够理解文本和图像之间的关系,并生成一个与图像内容相对应的响应。这种能力使得BuboGPT可以在对话中提供更丰富、更具上下文的回答。音频理解能力:当你给它一个音频剪辑时,它可以生成一个详细的描述,涵盖音频中的所有声音部分,甚至包括一些人类可能无法注意到的短暂音频片段。BuboGPT还可以处理匹配的音频-图像对,进行声音定位。例如,如果你给它一个场景的图片和场景中发生的声音,它可以理解声音和图像之间的关系,并生成一个描述声音来源位置的响应。即使音频和图像之间没有直接的关系。在这种情况下,BuboGPT可以生成一个高质量的响应,描述音频和图像之间的可能关系。

封面图片

阿里云的AI模型EMO上线通义App,允许用户通过照片和音频生成唱歌视频

阿里云的AI模型EMO上线通义App,允许用户通过照片和音频生成唱歌视频由通义实验室研发的AI模型EMO已在通义App上线,供用户免费使用。EMO是一个音频驱动的AI肖像视频生成系统,能够根据输入的参考图像和语音音频生成具有表现力的面部表情和头部姿势视频。用户可以选择多种模板,如热门歌曲或网络热梗,上传肖像照片后,EMO将合成相应的唱歌视频。目前,App提供了80多个模板,但不支持自定义音频。EMO的主要特点包括音频驱动的视频生成、高表现力和逼真度、无缝帧过渡、身份保持、稳定的控制机制、灵活的视频时长以及跨语言和风格的适应能力。此外,EMO的官方项目主页、研究论文和GitHub链接均已提供,模型和源码将待开源。关注频道@TestFlightCN

封面图片

卧槽,字节昨天发布这个项目DreamTuner,可以一举解决图像生成中角色一致性的问题。

卧槽,字节昨天发布这个项目DreamTuner,可以一举解决图像生成中角色一致性的问题。效果也太好了,可以将输入图片的角色在生成新图是完美保留,并且融合度非常好,这下小说、漫画和视频的人物一致性和商品一致性问题彻底解决了。并且可以和ContorlNet联动确保动画的稳定,间接实现了前段时间的让单张图片动起来的功能。项目简介:我们提出了一种新颖的方法DreamTurner,该方法将定制主题的参考信息从粗到细注入。首先提出了一个主题编码器,用于粗略主题身份保留,通过额外的注意力层在视觉-文本交叉注意力之前引入了压缩的一般主题特征。然后,注意到预训练的文本到图像模型中的自注意力层自然地执行了详细的空间上下文关联功能,我们将其修改为自主题注意力层,以细化目标主题的细节,生成的图像从参考图像和自身查询详细特征。值得强调的是,自主题注意力是一种优雅、有效且无需训练的方法,用于保持定制概念的详细特征,可在推断过程中作为即插即用的解决方案。最后,通过对单个图像进行额外微调,DreamTurner在受主题驱动的图像生成方面取得了显著的表现,可由文本或其他条件(如姿势)进行控制。项目地址:https://dreamtuner-diffusion.github.io/

封面图片

来听听詹姆斯-韦伯望远镜图像被音频化后的效果

来听听詹姆斯-韦伯望远镜图像被音频化后的效果观察宇宙有很多方法。围绕着下一代詹姆斯-韦伯太空望远镜发布的第一批图像和数据现在已经有了很多宣传。当地时间周三,NASA为太空爱好者提供了一种新的方式--一系列的音频曲目来体验韦伯的观察结果。这些音轨--包括对船底座星云和南环星云图像的翻译--使用声波将图像和数据变成音频体验。来自多伦多大学物理学教授、参与该项目的音乐家MattRusso表示:“音乐能触动我们的情感中心。我们的目标是通过声音使韦伯的图像和数据变得可以理解--帮助听众创造他们自己的心理图像。”船底座星云的“宇宙悬崖”--一个充满恒星、气体和尘埃的令人惊叹的天体--成为了一个闪光的、交响乐般的声音调色板。气体和尘埃具有着无人机般的音调。画面下部的橙色和红色是旋律性的。亮光点的音调较高。南环星云呈现出一种阴森的声音,就像在隧道里用弦乐手调音制作的实验性电子音乐。这种声音分为两部分,代表了韦伯对星云进行的不同的红外观测,其中明亮的星星发出清晰的声音。科学家和音乐家团队不仅仅是把图像变成了音频。韦伯还将气态巨型系外行星WASP-96b的大气层的数据变成了一个科幻式的音景,其充满了下降的音调和像滴水一样的效果。这些水滴则代表了大气中的水特征。声波为韦伯的发现带来了一个新的维度,它们使盲人和低视力的太空爱好者也能容易地了解望远镜的工作。“当我第一次听到声波时,它以一种发自内心的、情感的方式打动了我,我想象视力正常的人在仰望夜空时也会有这样的体验,”从事韦伯声音项目的盲人和弱视群体成员ChristineMalec说道。韦伯的音频体验既是异世界的又是熟悉的。它们表明,除了我们用眼睛看到的东西之外还有更广泛的方式来探索宇宙。PC版:https://www.cnbeta.com/articles/soft/1310969.htm手机版:https://m.cnbeta.com/view/1310969.htm

封面图片

谷歌升级Gemini 1.5 Pro AI可以听音频了

谷歌升级Gemini1.5ProAI可以听音频了Gemini1.5Pro被视为Gemini家族中的“中量级”(middle-weight)模型,其性能已经超越了最大规模、最强大的GeminiUltra。谷歌表示,Gemini1.5Pro能够理解复杂指令,而且使用时无需对模型进行特别调整。需要指出的是,不通过VertexAI的用户无法体验到Gemini1.5Pro的全部功能。目前,大众主要通过Gemini聊天机器人与Gemini大语言模型互动。尽管GeminiUltra为GeminiAdvanced聊天机器人提供了强大支持,能理解较长的指令,但在反应速度上不及Gemini1.5Pro。除了Gemini1.5Pro的更新,谷歌还对其它大型人工智能模型进行了升级。特别是作为文本转图像生成模型的Imagen2,它增强了Gemini的图像生成能力。通过引入图像外延(Outpainting)和内填(Inpainting)功能,用户现在能更灵活地对图像的元素进行添加或删除。为确保Imagen模型生成的图片版权和来源可追溯,谷歌为所有生成图片加入了SynthID数字水印技术。这种创新技术通过几乎不可见的水印明确标识图片来源,可以通过专用工具进行检测。Imagen模型的许多新特性,如图像外延和内填技术,已被其他文本转图像模型采用,例如StabilityAI的StableCascade和Getty的GenerativeAIbyiStock。此外,这些技术也被广泛应用于消费电子产品中,如三星Galaxy手机。除图像生成的创新外,谷歌还公开展示了一种结合人工智能生成回答和谷歌搜索结果的方法,旨在为用户提供更实时、更准确的信息。然而,大语言模型生成的回答并非总是精准无误,有时可能会误导用户。因此,谷歌对Gemini模型设置了一些限制,比如禁止回答与2024年美国大选相关的问题。此前,Gemini模型因在生成历史人物描述时出现不准确而受到批评。...PC版:https://www.cnbeta.com.tw/articles/soft/1426835.htm手机版:https://m.cnbeta.com.tw/view/1426835.htm

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人