看了一下谷歌发布的 Muse

看了一下谷歌发布的 Muse - 可以快速生成图像,与 Stable Diffusion 等扩散模型相比,3.7s > 1.3s - 可以对图片里的多个物体进行同时的修改(图2) - 可以对蒙版区域进行生成(图3和4) - 对语言理解的能力更强,降低咒语学习难度 然而谷歌未发布代码,理由:可能被恶意使用

相关推荐

封面图片

LLM 相关的基础文章很多人整理,AI 图像生成的比较少,刚好发现了一个,我又自己筛选了一下,一共 15 篇内容,都在这里了,如

LLM 相关的基础文章很多人整理,AI 图像生成的比较少,刚好发现了一个,我又自己筛选了一下,一共 15 篇内容,都在这里了,如果想深入研究 SD,建议看看。 主要包括三个部分:图片生成简介、图像生成基础模型的精细调整和构建 AI 生成服务,。 都放在下面的这个个链接里,打开一个就都有了。元旦我也会找时间把这些内容翻译一下,然后发出来,可以收藏这条回来看。等不及可以直接看,下面是具体的分类和文章目录: 图像生成技术简介: ◆ 人工智能和艺术:机器学习如何改变创造性工作(报告) ◆ 平面设计师如何创建他们自己的AI工具(博客文章) ◆ AI图像生成器的工作原理以及扩散是什么(视频) ◆ 什么是Diffusion模型?(视频) ◆ Diffusion模型的工作原理(1小时课程) ◆ 初学者指南:Stable diffusion(指南) 基础模型的精细调整: ◆ SD1.5通用目的模型的全面精细调整指南(博客文章) ◆ SD模型的基准测试与混合(博客文章) ◆ 解耦文本编码器和UNET学习率(博客文章) ◆ D适应:再见学习率困扰?(博客文章) ◆ 自己精细调整通用稳定扩散模型指南(博客文章) 构建 AI 生成服务的后端: ◆ 如何构建一个生成AI服务的后端 ◆ Stable diffusion提示:权威指南 ◆ SD提示的精细调整:修改Stable diffusion提示的GPT 3.5(博客文章) ◆ SD提示的目录(目录) 所有内容链接:

封面图片

继 Stable Diffusion 后,图像生成界又诞生了新的革新技术。来自谷歌的一组研究人员与马克斯普朗克信息学研究所和麻省

继 Stable Diffusion 后,图像生成界又诞生了新的革新技术。来自谷歌的一组研究人员与马克斯普朗克信息学研究所和麻省理工学院 CSAIL 最近发布了 「DragGAN」,一种新的图像生成方法。 通过 DragGAN,任何人都可以通过精确控制像素的位置对图像进行变形,从而操纵动物、汽车、人类、风景等不同类别的姿势、形状、表情和布局。 作者在 github 上表示代码将在六月发布,该项目一天时间内已有 1.2K 标星。以下是演示视频: (代码放出来后,如果 DragGAN 真的可以精准地控制图像生成的具体像素位置,那图像生成界真的又要变天了...) Invalid media:

封面图片

人工智能初创公司 Runway 发布文本到视频模型 Gen-2

人工智能初创公司 Runway 发布文本到视频模型 Gen-2 Gen-2 支持从文本到视频、图像到视频、文本+图像到视频各种场景,可以从几句用户提示中生成简短的视频片段。用户可通过 Runway 的加入 Gen-2 候补名单。 Runway 同时协助开发了开源图像生成模型 Stable Diffusion,比起拥有巨大资源的科技巨头,Runway 只是一个45人团队的人工智能初创公司,这也反映着初创公司在生成式AI上的潜力有多么惊人。

封面图片

【AI换图】 Stable Diffusion 背后团队之一的 Runway 公司发布了一个由该模型驱动的图像擦除和替换工具,该

【AI换图】 Stable Diffusion 背后团队之一的 Runway 公司发布了一个由该模型驱动的图像擦除和替换工具,该工具可以修改图像任何部分。用户需要做的就是擦除该区域并编写自然语言描述,剩下的交给程序就可以了。 #抽屉IT

封面图片

谷歌宣布在 Gmail、Docs 等产品中加入 AI 功能以与微软竞争

谷歌宣布在 Gmail、Docs 等产品中加入 AI 功能以与微软竞争 这些功能包括在谷歌文档中使用人工智能生成、总结和头脑风暴文本的新方法(类似于 OpenAI 的 ChatGPT),根据用户简要的要点在 Gmail 中生成完整电子邮件的功能,以及在幻灯片中生成人工智能图像、音频和视频来说明演示文稿(类似于由 OpenAI 的 DALL-E 驱动的微软 Designer 和由 Stable Diffusion 驱动的 Canva 两者的功能)。 这显示谷歌迫切想要在新的人工智能竞赛中追赶竞争对手微软,虽然谷歌宣布了一系列的新功能,但其中只有第一个功能 Docs 和 Gmail 中的人工智能写作工具,将在本月提供给一些美国的“值得信赖的测试者”。谷歌表示,这些和其他功能将在今年晚些时候向公众提供。 来源 ,附: 来自:雷锋 频道:@kejiqu 群组:@kejiquchat 投稿:@kejiqubot

封面图片

国外爆火emo模型国内上线了,阿里可以让人像照片变成唱歌视频的项目 EMO 终于发布了,体验了一下非常强。

国外爆火emo模型国内上线了,阿里可以让人像照片变成唱歌视频的项目 EMO 终于发布了,体验了一下非常强。 一张简单的照片加上克隆的语音模型,就可以定制自己的数字人出镜。 Heygen 之类的产品都需要录制一段相当长的视频,并且算力成本也很高,这个直接是免费的。明天开放公测,想要提前体验的同学可以找我要一个内测邀请码。 而且不局限于写实的人像,3D 模型、 二次元漫画都可以生成视频,生成一张自己喜欢的二次元图片然后加上自己的克隆语音就可以当Vtuber了。 EMO效果为什么这么自然: 通过阅读EMO的论文发现,他们在talking head领域首次提出了weak condition(弱控制)的设计,即剔除掉了任何针对人脸的显示表征建模,转而采用一些相对较弱的控制条件来引导diffusion去噪过程,这一点其实灵感来源于文生图模型中,采用粗粒度的prompt描述来生成图片。 他们在算法pipeline中加入了face locator和speed layers,分别用来控制人脸的生成区域(人头摆动幅度)与人头的动作频率。通过这些操作,可以最大化地保留diffusion模型强大的生成创造能力,由于没有针对表情的显示表征的限制,所生成的人脸表情都会有较高的丰富度,从而表现力有较大的提升 EMO没有针对人脸生成做过多的控制,人物会做什么表情,头部会如何运动,都是由模型从数据中学习到相关的知识决定。 表情、口型的一致如何保证: 模型会在训练中找到音频特征与图像中像素的对应关系,从而放大音频特征对于这些相关像素的影响,比如嘴部,眉眼等位置的像素,让图像中的人物表情口型与音频特征保持一致。 EMO在250小时的人物讲话视频上训练,不仅仅找到了audio中具体发音与人像口型的匹配关系,更重要是发现了音频中的语气特征与人物表情的关联性,从而将音频中的语气特征,甚至暗含的情绪色彩反映到了人物微表情上,它模型在训练中慢慢学习并编码了人类表达情绪的能力。

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人