看了一下谷歌发布的 Muse

看了一下谷歌发布的 Muse - 可以快速生成图像,与 Stable Diffusion 等扩散模型相比,3.7s > 1.3s - 可以对图片里的多个物体进行同时的修改(图2) - 可以对蒙版区域进行生成(图3和4) - 对语言理解的能力更强,降低咒语学习难度 然而谷歌未发布代码,理由:可能被恶意使用

相关推荐

封面图片

Stability AI 发布单幅图像生成 3D 对象的 Stable Zero123

Stability AI 发布单幅图像生成 3D 对象的 Stable Zero123 Stability AI 发布了能根据单幅图像生成对象各个角度视图的模型 Stable Zero123。Stable Zero123 是基于 Stable Diffusion 1.5,生成一个视图消耗的内存与 Stable Diffusion 1.5 相同,但如果要生成 3D 视图需要更多时间和更多内存,建议 24GB。Stable Zero123 目前只支持研究目的的非商业使用。代码和权重发布在上。来源 , 频道:@kejiqu 群组:@kejiquchat

封面图片

Stable Audio Open 开源 AI 模型发布

Stable Audio Open 开源 AI 模型发布 Stability AI 立足 Stable Diffusion 文生图模型,进一步向音频领域拓展,推出了 ,可以基于用户输入的提示词,生成高质量音频样本。 Stable Audio Open 最长可以创建 47 秒的音乐,非常适合鼓点、乐器旋律、环境音和拟声音效,该开源模型基于 transforms 扩散模型(DiT),在自动编码器的潜在空间中操作,提高生成音频的质量和多样性。 Stable Audio Open 目前已经开源,感兴趣的用户可以在上试用。据说它使用了来自 FreeSound 和 Free Music Archive 等音乐库的 486000 多种采样进行训练。Stability AI 公司表示:“虽然它可以生成简短的音乐片段,但并不适合完整的歌曲、旋律或人声”。 Stable Audio Open 和 Stable Audio 2.0 不同是,前者为开源模型,专注于短音频片段和音效,而后者能够生成最长 3 分钟的完整音频。来源 , 频道:@kejiqu 群组:@kejiquchat

封面图片

LLM 相关的基础文章很多人整理,AI 图像生成的比较少,刚好发现了一个,我又自己筛选了一下,一共 15 篇内容,都在这里了,如

LLM 相关的基础文章很多人整理,AI 图像生成的比较少,刚好发现了一个,我又自己筛选了一下,一共 15 篇内容,都在这里了,如果想深入研究 SD,建议看看。 主要包括三个部分:图片生成简介、图像生成基础模型的精细调整和构建 AI 生成服务,。 都放在下面的这个个链接里,打开一个就都有了。元旦我也会找时间把这些内容翻译一下,然后发出来,可以收藏这条回来看。等不及可以直接看,下面是具体的分类和文章目录: 图像生成技术简介: ◆ 人工智能和艺术:机器学习如何改变创造性工作(报告) ◆ 平面设计师如何创建他们自己的AI工具(博客文章) ◆ AI图像生成器的工作原理以及扩散是什么(视频) ◆ 什么是Diffusion模型?(视频) ◆ Diffusion模型的工作原理(1小时课程) ◆ 初学者指南:Stable diffusion(指南) 基础模型的精细调整: ◆ SD1.5通用目的模型的全面精细调整指南(博客文章) ◆ SD模型的基准测试与混合(博客文章) ◆ 解耦文本编码器和UNET学习率(博客文章) ◆ D适应:再见学习率困扰?(博客文章) ◆ 自己精细调整通用稳定扩散模型指南(博客文章) 构建 AI 生成服务的后端: ◆ 如何构建一个生成AI服务的后端 ◆ Stable diffusion提示:权威指南 ◆ SD提示的精细调整:修改Stable diffusion提示的GPT 3.5(博客文章) ◆ SD提示的目录(目录) 所有内容链接:

封面图片

继 Stable Diffusion 后,图像生成界又诞生了新的革新技术。来自谷歌的一组研究人员与马克斯普朗克信息学研究所和麻省

继 Stable Diffusion 后,图像生成界又诞生了新的革新技术。来自谷歌的一组研究人员与马克斯普朗克信息学研究所和麻省理工学院 CSAIL 最近发布了 「DragGAN」,一种新的图像生成方法。 通过 DragGAN,任何人都可以通过精确控制像素的位置对图像进行变形,从而操纵动物、汽车、人类、风景等不同类别的姿势、形状、表情和布局。 作者在 github 上表示代码将在六月发布,该项目一天时间内已有 1.2K 标星。以下是演示视频: (代码放出来后,如果 DragGAN 真的可以精准地控制图像生成的具体像素位置,那图像生成界真的又要变天了...) Invalid media:

封面图片

人工智能初创公司 Runway 发布文本到视频模型 Gen-2

人工智能初创公司 Runway 发布文本到视频模型 Gen-2 Gen-2 支持从文本到视频、图像到视频、文本+图像到视频各种场景,可以从几句用户提示中生成简短的视频片段。用户可通过 Runway 的加入 Gen-2 候补名单。 Runway 同时协助开发了开源图像生成模型 Stable Diffusion,比起拥有巨大资源的科技巨头,Runway 只是一个45人团队的人工智能初创公司,这也反映着初创公司在生成式AI上的潜力有多么惊人。

封面图片

ℹ想体验最新 Stable Diffusion 3 Medium 模型的 AI 图片生成效果吗?这款免费工具可以让你试试#

ℹ想体验最新 Stable Diffusion 3 Medium 模型的 AI 图片生成效果吗?这款免费工具可以让你试试# 几天前  推出来全新的 Stable Diffusion 3 Medium 开源模型,这是一款 2B 版本,意味著...

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人