AnyDoor :可以将任何对象巧妙的放入到新的图像、视频场景中

AnyDoor :可以将任何对象巧妙的放入到新的图像、视频场景中 它是一种基于扩散的图像生成器,可以将目标对象(例如,人、动物、物品等)在用户指定的位置以和谐的方式传送到新的场景中。 如果你有一个视频,视频中的场景是一个空荡荡的房间,你可以将一个沙发或者一张桌子传送到这个房间中。 这个模型在训练过程中学到了如何描述和理解对象的一般特性,而不是特定对象的特性。这种能力被称为“零射击”泛化,意味着模型可以处理在训练数据中没有出现过的新对象。所以它只需要训练一次,然后就可以应用到各种不同的对象和场景组合上。 为了实现这个目标,AnyDoor 使用了一种名为“细节特征”的技术。这种特征可以保留对象的纹理细节,同时允许对象在不同的环境中进行局部变化,例如照明、方向和姿势等。这使得对象可以和新的场景自然地融合。 此外,AnyDoor 还使用了一种从视频数据集中借用知识的方法。在视频数据集中,可以观察到单个对象在时间轴上的各种形式,这有助于提高模型的泛化能力和鲁棒性。 实验结果表明,AnyDoor 的性能优于现有的方法,并且在实际应用中具有巨大的潜力,例如虚拟试穿和对象移动等。 || #生成器

相关推荐

封面图片

Meta 开源发布可分割识别任意图像中主体的 SAM 模型

Meta 开源发布可分割识别任意图像中主体的 SAM 模型 已经理解了对象是什么的一般概念,可以直接对没见过的图像进行分割任务 (识别像素属于哪个对象)。Meta 还同时开源发布了比任何现有分割数据集大400倍的 SA-1B 数据集。 SAM 可以成为庞大AI系统的一部分,用于对世界进行多模态理解,例如理解图像和文本。SAM 可以在 AR/VR 中根据用户的视线选择对象,进行识别查询或者3D建模。SAM 可以进行智能抠图或视频后期。SAM 还可用于地球与太空的科学任务,对动物和物体进行定位,例如细胞显微镜,牧场的动物识别,天体运行跟踪。

封面图片

:可以理解图像和音频的内容,并将这些理解与文本输入和输出相结合。

:可以理解图像和音频的内容,并将这些理解与文本输入和输出相结合。 BuboGPT是由字节跳动开发的大型语言模型,能够处理多模态输入,包括文本、图像和音频,并具有将其响应与视觉对象相对应的独特能力。 它可以进行细粒度的视觉理解,音频理解,以及对齐的音频-图像理解和任意音频-图像理解。 BuboGPT的架构是通过学习一个共享的语义空间并进一步探索不同视觉对象和不同模态之间的细粒度关系,从而实现了包括图像、音频和文本在内的多模态理解。 它的训练过程包括两个阶段:单模态预训练和多模态指令调整。 在单模态预训练阶段,对应的模态Q-Former和线性投影层在大量的模态-文本配对数据上进行训练。 在多模态指令调整阶段,使用高质量的多模态指令跟踪数据集对线性投影层进行微调。 当你给它一个图像和一段描述图像的文本时,BuboGPT能够理解文本和图像之间的关系,并生成一个与图像内容相对应的响应。这种能力使得BuboGPT可以在对话中提供更丰富、更具上下文的回答。 音频理解能力:当你给它一个音频剪辑时,它可以生成一个详细的描述,涵盖音频中的所有声音部分,甚至包括一些人类可能无法注意到的短暂音频片段。 BuboGPT还可以处理匹配的音频-图像对,进行声音定位。例如,如果你给它一个场景的图片和场景中发生的声音,它可以理解声音和图像之间的关系,并生成一个描述声音来源位置的响应。 即使音频和图像之间没有直接的关系。在这种情况下,BuboGPT可以生成一个高质量的响应,描述音频和图像之间的可能关系。

封面图片

可以在2个场景中享受Live2D乐趣的场景模拟器。

可以在2个场景中享受Live2D乐趣的场景模拟器。 ※请在体验版中确认运行情况。 ■操作方法 <共通> 拖动中间的粉色物体(视线控制器)可以控制视线。 ・视线按钮(黄色)→显示/隐藏视线控制器 ・UI按钮(黄色)→显示/隐藏整体UI ・SE、Vo滑块(屏幕右上)→调整音效(SE)和声音(Vo)的音量 ・模式切换按钮(粉色)→自动模式/手动模式切换 ・场景切换按钮(粉色)→切换场景 <自动模式> ・动作A、B、C、D按钮(水色)→播放各个动作 <手动模式> 通过拖动屏幕使角色移动 ・参数变更按钮(水色)→通过滑块更改模型的参数(例如表情) ※角色由AI生成,并经过润色和修正。 •制作人员• 音声素材_Pincree(CV: いちくら) 日文 #动态 #PC #安卓 #APK #DIXY 入正地址 #Play! With Izuna

封面图片

AI根据人眼的反射图像重建3D场景

AI根据人眼的反射图像重建3D场景 人眼的反射性质是一个未被充分重视的信息来源,马里兰大学帕克分校的研究员发现,通过AI模型和人类肖像中的眼睛反射,可以重建相机镜头之外的多个3D场景。 所有健康成年人的角膜几何形状大致相同,如果计算图像中人类角膜的像素大小,就可以准确计算出他们眼睛的方位。利用这种判断力,研究员训练了一个眼睛反射的辐射场,为了消除重建中出现的虹膜,研究员同时训练AI学习了虹膜的2D纹理图来执行纹理分解。

封面图片

Google DeepMind的新AI可以为视频生成配乐和对白

Google DeepMind的新AI可以为视频生成配乐和对白 DeepMind 写道:"视频生成模型正以惊人的速度发展,但目前的许多系统只能生成无声输出。V2A技术[可能]成为让生成的电影栩栩如生的一种有前途的方法"。DeepMind的V2A技术可以将配乐描述(例如"水母在水下跳动、海洋生物、海洋")与视频配对,创造出与视频中的人物和语气相匹配的音乐、音效甚至对话,并通过DeepMind的SynthID深度防伪技术打上水印。DeepMind 表示,为 V2A 提供动力的人工智能模型(一种扩散模型)是在声音和对话文本以及视频剪辑的组合上训练出来的。DeepMind 写道:"通过对视频、音频和附加注释进行训练,我们的技术学会了将特定音频事件与各种视觉场景联系起来,同时对注释或文本中提供的信息做出响应。"关于训练数据是否受版权保护,以及数据创建者是否被告知 DeepMind 的工作,目前还不得而知。人工智能驱动的声音生成工具并不新鲜。创业公司 Stability AI 上周刚刚发布了一款,ElevenLabs 在 5 月份也推出了一款。创建视频音效的模型也不新鲜。微软的一个项目可以从静止图像中生成说话和唱歌视频,Pika和GenreX等平台已经训练出模型,可以获取视频并猜测特定场景中适合的音乐或效果。但 DeepMind 声称,其 V2A 技术的独特之处在于,它可以理解视频中的原始像素,并自动将生成的声音与视频同步,还可以选择不加说明。V2A 并不完美,DeepMind 也承认这一点。由于底层模型并没有在大量存在伪像或扭曲的视频上进行过训练,因此它并不能为这些视频生成特别高质量的音频。出于这些原因,同时也为了防止滥用,DeepMind 表示不会在短期内(如果有的话)向公众发布这项技术。DeepMind 写道:"为了确保我们的 V2A 技术能够对创意社区产生积极影响,我们正在收集来自顶尖创作者和电影制作人的各种观点和见解,并利用这些宝贵的反馈意见来指导我们正在进行的研究和开发工作。在考虑向更广泛的公众开放之前,我们的 V2A 技术将接受严格的安全评估和测试。"DeepMind 的 V2A 技术对于档案管理员和处理历史片段的人来说是一种特别有用的工具。但是,按照这种思路进行的生成式人工智能也有可能颠覆电影和电视行业。要想确保生成式媒体工具不会消除工作岗位,或者说,消除整个职业,就需要一些强有力的劳动保护措施。 ... PC版: 手机版:

封面图片

RPG-DiffusionMaster是一个全新的无需训练的文本到图像生成/编辑框架,利用多模态LLM的链式推理能力增强文本到图

RPG-DiffusionMaster是一个全新的无需训练的文本到图像生成/编辑框架,利用多模态LLM的链式推理能力增强文本到图像扩散模型的组合性。 该框架采用MLLM作为全局规划器,将复杂图像生成过程分解为多个子区域内的简单生成任务。同时提出了互补的区域扩散以实现区域化的组合生成。此外,在提出的RPG框架中闭环地集成了文本引导的图像生成和编辑,从而增强了泛化能力。 大量实验证明,RPG-DiffusionMaster在多类别对象组合和文本-图像语义对齐方面优于DALL-E 3和SDXL等最先进的文本到图像扩散模型。特别地,RPG框架与各种MLLM架构(例如MiniGPT-4)和扩散骨干(例如ControlNet)兼容性广泛。 需求人群: "RPG-DiffusionMaster可用于文本到图像生成和编辑,特别擅长处理复杂的文本提示和多对象多属性关系。" 使用场景示例: 使用RPG-DiffusionMaster生成包含多个对象的图像 利用RPG-DiffusionMaster编辑图像以实现文本语义对齐 采用RPG-DiffusionMaster进行文本到图像生成的实验 产品特色: 利用多模态LLM进行全局规划 将复杂图像生成过程分解为简单生成任务 实现区域化的组合生成 闭环集成文本引导的图像生成和编辑 提高泛化能力 优于其他文本到图像扩散模型 | #框架

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人