接上条动态,我刚让 New Bing 帮我读的就是这篇阿里最新发布的论文 —— Composer,一个很能打的图像生成模型。

接上条动态,我刚让NewBing帮我读的就是这篇阿里最新发布的论文——Composer,一个很能打的图像生成模型。它不仅拥有主流模型的生成能力,还有基于描述词、深度图、蒙版等的编辑能力。更厉害的是(也是这次的主打功能),它能对这些编辑条件进行混搭使用,让AI编辑能力直线上升。(用调色板改图的功能我实在太爱了…[苦涩])▶论文地址:arxiv.org/abs/2302.09778▶项目地址:damo-vilab.github.io/composer-page/(项目地址还有很多案例,记得点进去看看)噢对,即将开源。

相关推荐

封面图片

发现错过了一篇 text to video 的论文 —— Dreamix,众所不周知,现在视频可以P了,用嘴就行。

发现错过了一篇texttovideo的论文——Dreamix,众所不周知,现在视频可以P了,用嘴就行。从展示的案例来看,Dreamix的生成能力跟去年Meta和Google发布的模型类似,个人觉得用图片生成视频的案例比较惊艳……毕竟拍几张照片+一段文字描述就能生成一个视频,是真的离谱。▶项目地址:dreamix-video-editing.github.io▶论文地址:arxiv.org/pdf/2302.01329.pdf

封面图片

卧槽阿里这篇新论文好厉害 —— Animate Anyone,输入单张图片就能生成任意动作的视频!

卧槽阿里这篇新论文好厉害——AnimateAnyone,输入单张图片就能生成任意动作的视频!建议大家点进项目地址感受一下生成质量,可控性和连续性都高到离谱而且还高清,你能想象到无数应用场景。▶项目地址:humanaigc.github.io/animate-anyone明显感觉到AI视频所需要的一切爆发条件都准备好了,坐等诸神之战下一阶段开打。#AI视频#source

封面图片

ML Blocks:无代码AI图像生成和分析工作流平台

MLBlocks:无代码AI图像生成和分析工作流平台它提供了一个拖放式的界面,允许用户轻松地创建复杂的图像处理工作流,无需编写任何代码。你只根据需要将不同的功能块(如图像编辑功能和AI模型)组合在一起,即可实现个性化的图像自动化处理。该工具主要解决在电商领域遇到的批量处理图片问题。MLBlocks允许用户创建可以处理多步骤图像生成或分析管道的自定义图像处理工作流,使用基于图的工作流。用户只需按顺序连接几个块,如去背景->裁剪->AI上采样,就可以在几分钟内得到完整的图像处理工作流。主要功能:生成图像:使用StableDiffusion等AI模型生成或绘制图像。编辑图像:提供编辑功能,如裁剪、调整大小、重新着色等,来修改图像。分析图像:利用检测或分割模型从图像中提取数据。实际应用示例:基于提示模糊图像特定区域:传统方法需要使用DINO模型生成提示中提到的对象周围的边界框,然后使用像SegmentAnything这样的分割模型生成这些区域的遮罩,最后使用Pillow或OpenCV库编写模糊功能来模糊遮罩区域。而使用MLBlocks,用户只需将分割、遮罩和模糊块连接起来,就能在2分钟内完成工作流程。你还可以自动生成博客帖子或推文的横幅图像、根据提示移除图像中的对象、去除背景并用AI创建新背景等多种工作流程。

封面图片

#GitHub#AI#图像#工具OOTDiffusion-高品质AI虚拟换衣工具▎项目功能:虚拟换衣▎项目介绍:一个先进的虚拟试

#GitHub#AI#图像#工具OOTDiffusion-高品质AI虚拟换衣工具▎项目功能:虚拟换衣▎项目介绍:一个先进的虚拟试穿(VTON)技术项目,利用潜在扩散模型(LDM)来生成逼真且可控的虚拟服饰试穿图像。OOTDiffusion采用潜在扩散模型技术,可以生成和融合高质量的服装图像。它支持半身及全身两种模型模式,并允许用户根据不同的性别与体型进行相应调整,以确保试穿效果的自然真实。▎相关推荐:OutfitAnyone-阿里出品开源一键超高品质虚拟试穿项目IDM-VTON-先进的开源AI虚拟换衣框架LaDI-VTON-潜伏扩散文本反转增强虚拟试穿模型ACuratedListofAwesomeVirtualTry-与虚拟试穿相关的优秀研究论文、项目、代码、数据集、研讨会等的精选列表▎项目地址:点击打开

封面图片

i-to-pptx

项目名称:Ai-to-pptx项目功能:AIPPT生成项目简介:一个利用AI技术(包括ChatGPT和Gemini)来制作和修改PPTX文件的工具。使用ChatGPT等大型语言模型来自动生成演示文稿的大纲。可以对生成的内容进行再次编辑和修改。支持将文件导出为PPTX、PDF、PNG等多种格式。项目地址:

封面图片

还记得DragGAN吗?可以拖动锚点进行图像编辑,当时代码发布以后大家发现生成速度慢,而且不能自己自定义外部图片就没人理了。

还记得DragGAN吗?可以拖动锚点进行图像编辑,当时代码发布以后大家发现生成速度慢,而且不能自己自定义外部图片就没人理了。现在又有一个StableDrag,是基于Diffusion模型的,也可以完成类似的拖动锚点编辑图片的能力。如果真的跟演示的效果一样的话,那图片编辑就太方便了。论文简介:自DragGAN出现以来,基于点的图像编辑引起了显著的关注。最近,DragDiffusion通过将这种拖动技术适配到扩散模型中,进一步推进了生成质量。尽管取得了巨大成功,但这种拖动方案存在两个主要缺点:不准确的点跟踪和不完整的运动监督,这可能导致拖动效果不理想。为了解决这些问题,我们设计了一种判别式点跟踪方法和一种基于置信度的潜在增强策略,构建了一个稳定和精确的基于拖动的编辑框架,称为StableDrag。其中,判别式点跟踪方法允许我们精确定位更新的控制点,从而提高长距离操作的稳定性;而基于置信度的潜在增强策略则负责确保优化后的潜在表示在所有操作步骤中都尽可能保持高质量。得益于这些独特的设计,我们实现了两种类型的图像编辑模型:StableDrag-GAN和StableDrag-Diff。通过在DragBench上进行广泛的定性实验和定量评估,证明了这两种模型能够实现更稳定的拖动性能。项目地址:

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人