逼真复刻「完美中国情侣」,加强版 Stable Diffusion 免费体验,最新技术报告出炉 - IT之家

None

相关推荐

封面图片

“文生图”行业一哥:Stability AI 宣布推出首个正式版 Stable Diffusion XL 1.0 - IT之家

封面图片

表情最逼真机器人靠 AIGC 再进化,接入 Stable Diffusion 学会用笔画画=========啥时候能买马库斯呢

封面图片

留美中国学生学者头号威胁是?「自由之家」报告公布答案

封面图片

Stability AI 发布了他们最强的图片生成模型 Stable Diffusion 3 的技术报告,披露了 SD3 的更多

Stability AI 发布了他们最强的图片生成模型 Stable Diffusion 3 的技术报告,披露了 SD3 的更多细节。 据他们所说,SD3 在排版质量、美学质量和提示词理解上超过了目前所有的开源模型和商业模型,是目前最强的图片生成模型。 技术报告要点如下: ◆根据人类偏好评估,SD3 在排版质量和对提示的理解程度上,均优于目前最先进的文本生成图像系统,例如 DALL·E 3、Midjourney v6 和 Ideogram v1。 ◆提出了新的多模态扩散 Transformer (Multimodal Diffusion Transformer,简称 MMDiT) 架构,其使用独立的权重集分别表示图像和语言。与 SD3 的先前版本相比,该架构改善了系统对文本的理解能力和拼写能力。 ◆SD3 8B 大小的模型可以在 GTX 4090 24G 显存上运行。 ◆SD3 将发布多个参数规模不等的模型方便在消费级硬件上运行,参数规模从 800M 到 8B 。 ◆SD3 架构以 Diffusion Transformer (简称"DiT",参见 Peebles & Xie,2023)为基础。鉴于文本嵌入和图像嵌入在概念上存在较大差异,我们为这两种模态使用了独立的权重集。 ◆通过这种方法,信息得以在图像 Token 和文本 Token 之间流动,从而提高了模型生成结果的整体理解力和排版质量。我们在论文中还讨论了如何轻松地将这一架构扩展至视频等多模态场景。 ◆SD3 采用了矫正流 (Rectified Flow,简称 RF) 的公式 (Liu et al.,2022;Albergo & Vanden-Eijnden,2022;Lipman et al.,2023),在训练过程中,数据和噪声被连接在一条线性轨迹上。这导致了更直的推理路径,从而可以使用更少的步骤进行采样。 ◆扩展矫正流 Transformer 模型:使用重新加权的 RF 公式和 MMDiT 主干网络,对文本到图像的合成任务开展了模型扩展研究。我们训练了一系列模型,其规模从 15 个 。Transformer 块 (4.5 亿参数) 到 38 个块 (80 亿参数) 不等。

封面图片

继 Stable Diffusion 后,图像生成界又诞生了新的革新技术。来自谷歌的一组研究人员与马克斯普朗克信息学研究所和麻省

继 Stable Diffusion 后,图像生成界又诞生了新的革新技术。来自谷歌的一组研究人员与马克斯普朗克信息学研究所和麻省理工学院 CSAIL 最近发布了 「DragGAN」,一种新的图像生成方法。 通过 DragGAN,任何人都可以通过精确控制像素的位置对图像进行变形,从而操纵动物、汽车、人类、风景等不同类别的姿势、形状、表情和布局。 作者在 github 上表示代码将在六月发布,该项目一天时间内已有 1.2K 标星。以下是演示视频: (代码放出来后,如果 DragGAN 真的可以精准地控制图像生成的具体像素位置,那图像生成界真的又要变天了...) Invalid media:

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人