【模型开源还强大?神秘公司成了吊打巨头和学阀的AI “第三极”】Stable Diffusion 的完全开放,以及在商业/非商业

【模型开源还强大?神秘公司成了吊打巨头和学阀的AI “第三极”】Stable Diffusion 的完全开放,以及在商业/非商业使用上超高的自由度,已经让它成为了一个“离群者” (outlier),和 DALL·E、Imagen 等封闭/半封闭产品之间,已经形成了一道巨大的鸿沟。 #抽屉IT

相关推荐

封面图片

(就是那个开源Stable Diffusion的公司)新开源了他们的大语言模型StableLM。

(就是那个开源Stable Diffusion的公司)新开源了他们的大语言模型StableLM。 目前发布的是StableLM-alpha 模型,有30亿参数和70亿参数两款。150亿参数和300亿参数的型号正在开发中。对中文的支持不怎么样。 许可协议是CC BY-SA-4.0(可商用,但衍生品必须同样是使用该协议)。

封面图片

Stable Audio Open 开源 AI 模型发布

Stable Audio Open 开源 AI 模型发布 Stability AI 立足 Stable Diffusion 文生图模型,进一步向音频领域拓展,推出了 ,可以基于用户输入的提示词,生成高质量音频样本。 Stable Audio Open 最长可以创建 47 秒的音乐,非常适合鼓点、乐器旋律、环境音和拟声音效,该开源模型基于 transforms 扩散模型(DiT),在自动编码器的潜在空间中操作,提高生成音频的质量和多样性。 Stable Audio Open 目前已经开源,感兴趣的用户可以在上试用。据说它使用了来自 FreeSound 和 Free Music Archive 等音乐库的 486000 多种采样进行训练。Stability AI 公司表示:“虽然它可以生成简短的音乐片段,但并不适合完整的歌曲、旋律或人声”。 Stable Audio Open 和 Stable Audio 2.0 不同是,前者为开源模型,专注于短音频片段和音效,而后者能够生成最长 3 分钟的完整音频。来源 , 频道:@kejiqu 群组:@kejiquchat

封面图片

Stable Diffusion 的母公司 Stability AI 宣布开源一款全新的大语言模型 StableLM

Stable Diffusion 的母公司 Stability AI 宣布开源一款全新的大语言模型 StableLM 模型的 Alpha 版本有 30 亿和 70 亿参数,并将于后续开放 150 亿和 650 亿的参数模型。 Stability AI 的创始人 Emad Mostaque 自 2020 年从 OpenAI 团队离开后,一直秉承着开源开放的理念,持续推出了多款 AI 开源模型。其中影响力最广的,便有大家所熟知的文本生成图像模型 Stable Diffusion。 本次开源的 StableLM,基础功能跟 GPT 一样,支持生成文本和代码,在未来可以给不少应用提供基础技术支持。在项目中,StableLM 提供了几个基础演示,包括聊天、撰写书信、小说创作、代码编写等功能。来源 (,) 来自:雷锋 频道:@kejiqu 群组:@kejiquchat 投稿:@kejiqubot

封面图片

Stable Diffusion 是人工智能公司 Stability AI 背后的文本到图像模型,于 2022 年 8 月发布。

Stable Diffusion 是人工智能公司 Stability AI 背后的文本到图像模型,于 2022 年 8 月发布。Stability AI 首席执行官 Emad Mostaque 表示,Stable Diffusion 在所有渠道拥有超过 1000 万用户。如果我们推断一下《Midjourney》的数据和趋势,就会发现,通过官方的 Stable Diffusion 渠道,用户每天会生成 200 万张图片,而在发布一年多的时间里,这个数字已经达到了 6.9 亿张图像。 如果加上其他流行模型(例如 Runway,我们单独统计)和 Stability AI 的官方渠道,使用 Stable Diffusion 创建的图像数量将增加到 125.9 亿张,占所有使用文本转文字创建的 AI 图像的 80%。 Adobe Firefly Adobe Adobe 推出了 Firefly,于 2023 年 3 月发布。上线 6 周内,用户创建了超过 1 亿资产。随着 Firefly 于 2023 年 5 月集成到 Adobe Photoshop,考虑到全球使用 Photoshop 的人数,图像数量呈指数级增长。 Adobe 在最新的新闻稿中分享了其 AI 图像统计数据:推出仅 3 个月,使用 Adobe Firefly 创建的图像数量就已达到 10 亿张。 使用 Stable Diffusion、Adobe Firefly、Midjourney 和 DALLE-2 总共生成了超过 150 亿张人工智能创建的图像。这比 Shutterstock 的整个照片、矢量图和插图库还要多,而且是 Instagram 上传的图片数量的三分之一。

封面图片

Stability AI 发布了他们最强的图片生成模型 Stable Diffusion 3 的技术报告,披露了 SD3 的更多

Stability AI 发布了他们最强的图片生成模型 Stable Diffusion 3 的技术报告,披露了 SD3 的更多细节。 据他们所说,SD3 在排版质量、美学质量和提示词理解上超过了目前所有的开源模型和商业模型,是目前最强的图片生成模型。 技术报告要点如下: ◆根据人类偏好评估,SD3 在排版质量和对提示的理解程度上,均优于目前最先进的文本生成图像系统,例如 DALL·E 3、Midjourney v6 和 Ideogram v1。 ◆提出了新的多模态扩散 Transformer (Multimodal Diffusion Transformer,简称 MMDiT) 架构,其使用独立的权重集分别表示图像和语言。与 SD3 的先前版本相比,该架构改善了系统对文本的理解能力和拼写能力。 ◆SD3 8B 大小的模型可以在 GTX 4090 24G 显存上运行。 ◆SD3 将发布多个参数规模不等的模型方便在消费级硬件上运行,参数规模从 800M 到 8B 。 ◆SD3 架构以 Diffusion Transformer (简称"DiT",参见 Peebles & Xie,2023)为基础。鉴于文本嵌入和图像嵌入在概念上存在较大差异,我们为这两种模态使用了独立的权重集。 ◆通过这种方法,信息得以在图像 Token 和文本 Token 之间流动,从而提高了模型生成结果的整体理解力和排版质量。我们在论文中还讨论了如何轻松地将这一架构扩展至视频等多模态场景。 ◆SD3 采用了矫正流 (Rectified Flow,简称 RF) 的公式 (Liu et al.,2022;Albergo & Vanden-Eijnden,2022;Lipman et al.,2023),在训练过程中,数据和噪声被连接在一条线性轨迹上。这导致了更直的推理路径,从而可以使用更少的步骤进行采样。 ◆扩展矫正流 Transformer 模型:使用重新加权的 RF 公式和 MMDiT 主干网络,对文本到图像的合成任务开展了模型扩展研究。我们训练了一系列模型,其规模从 15 个 。Transformer 块 (4.5 亿参数) 到 38 个块 (80 亿参数) 不等。

封面图片

Midjourney危险了!Stable Diffusion最强模型SDXL已上线(含保姆级体验教程)!

Midjourney危险了!Stable Diffusion最强模型SDXL已上线(含保姆级体验教程)! 看到没多少人写sdxl,这里我就给想尝鲜的朋友,写一个如何快速体验SDXL效果的教程。 免下载模型,sdxl体验步骤: 1、sd为什么会搞出sdxl? 这次,SD看着营收上亿的Mj,终于坐不住了。 它发布了全新模型SDXL 1.0,号称是“迄今为止最牛逼的图像生成大模型”。 那你肯定好奇,为什么会搞出这样一个产品? 很简单,SD看到Mj赚了几个亿坐不住了。 我要是sd,我现在大腿都要拍肿了。 人家mj十几个人居然搞出来了上亿美元的收入,你sd那么多的人还在亏损??? 这不对标mj搞出个史诗级的新模型,你家投资人都坐不住了。 毕竟,搞研究是要花钱的,这次的sdxl很显然就是冲着后续抢用户+收费来的。 2、SDXL体验+测评效果总结 根据我的经验,SDXL是一个过渡期的产品,想要尝鲜的朋友一定不要错过。 首先要给第一次接触的朋友讲一下,作为一个拥有35亿参数基础模型和66亿参数模型的生物。 这个SDXL到底比之前几个版本的sd牛逼在哪里? (1)对撰写提示词的要求大大降低。 除了提示词更加精简之外,它的效果主要是体现在不需要质量提升词和负面提示词上。 你不需要输入masterpiece这些常见的品质优化词,就可以实现非常棒的画面效果。 同样的,你也不必像之前那样输入大量的负面提示词,来控制ai对画面的生成。 比如最常见的手部结构出问题,是大家能识别ai的好方法,而现在ai更加能够生成无缺陷的手部结构了。 (2)加强了对自然语言的理解能力。 这个其实也是为了解决目前撰写提示词上的痛点,比如目前ai绘画的提示词都是一个个用逗号连接起来的词条。 而到了SDXL这个版本,即使你输入一连串的自然对话,它也可以理解了。 也就是说,写提示词这件事儿,真的会越来越简单了。 (3)支持更大尺寸的照片,分辨率高很多。 比如你可以直接生成1024x1024大小的图片了。 之前你想直接出这类高清图片其实需要使用高清修复或者其他方法才能达到。 (4)ai终于会写字了。 SDXL已经能识别和生成文字了。

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人