Stability AI 太惨了老是发消息被忽略,昨晚他们还跟Tripo AI 联合推出了 TripoSR 3D 生成模型,可以

Stability AI 太惨了老是发消息被忽略,昨晚他们还跟Tripo AI 联合推出了 TripoSR 3D 生成模型,可以在不到 1 秒的时间里生成高质量的 3D 模型。 TripoSR的推理只需要极低的算力,甚至都不需要 GPU,极大的降低了生产成本。权重模型允许商业化使用。 性能:TripoSR可以在其他模型所需时间的一小部分时间内创建详细的3D模型。在Nvidia A100上进行测试时,它可以在大约0.5秒内生成初步质量的3D输出(纹理网格),表现优于其他开放的图像到3D模型,如OpenLRM。 技术细节:训练数据准备包括多种数据渲染技术,更贴近真实世界中图像的分布,显著提高了模型的泛化能力。精心策划了一个CC-BY,即Objaverse数据集的高质量子集,用于训练数据。在模型方面,还对基础LRM模型进行了多项技术改进,包括通道数优化、蒙版监督和更高效的裁剪渲染策略。 详细信息:

相关推荐

封面图片

Stability AI 发布 Stable Video 3D

Stability AI 发布 Stable Video 3D AI 创业公司 Stability AI 发布了 Stable Video 3D,输入一个对象的静态照片生成该对象的 3D 模型。Stable Video 3D 有两个版本:SV3D_u 和 SV3D_p,其中 SV3D_u 输入单幅图像生成轨道视频,无需相机调节;SV3D_p 组合了单幅图像和轨道视图,允许沿着指定相机路径创建 3D 视频。Stable Video 3D 的商业使用需要付费,非商业使用可在上下载模型权重(9.37GB)。来源 ,, 频道:@kejiqu 群组:@kejiquchat

封面图片

Stability AI 发布单幅图像生成 3D 对象的 Stable Zero123

Stability AI 发布单幅图像生成 3D 对象的 Stable Zero123 Stability AI 发布了能根据单幅图像生成对象各个角度视图的模型 Stable Zero123。Stable Zero123 是基于 Stable Diffusion 1.5,生成一个视图消耗的内存与 Stable Diffusion 1.5 相同,但如果要生成 3D 视图需要更多时间和更多内存,建议 24GB。Stable Zero123 目前只支持研究目的的非商业使用。代码和权重发布在上。来源 , 频道:@kejiqu 群组:@kejiquchat

封面图片

Stability AI产量很高啊,推出了一个新的 AI 图像生成模型Stable Cascade,还会发布对应的微调、Cont

Stability AI产量很高啊,推出了一个新的 AI 图像生成模型Stable Cascade,还会发布对应的微调、ControlNet 和 LoRA 训练的脚本。 这个模型基于Würstchen架构,可以显著降低模型训练的算力成本,比 SD2.1 的算力成本降低了 10 倍左右。另外推理速度会比现有的 SD 模型快一倍左右。 更多功能: 除了标准的文本到图像生成之外,Stable Cascade 还可以执行图像变化和图像到图像生成。 会跟随模型一起发布的 Controlnet: 局部重绘:输入与文本提示附带的蒙版配对的图像。该模型根据提供的文本提示填充图像的遮罩部分。 Canny Edge:通过跟踪输入到模型的现有图像的边缘来生成新图像。该测试也可以从草图进行扩展。 2x超分辨率:也可用于C阶段生成的潜在空间。 了解更多:

封面图片

Stability AI发布最新图像生成模型Stable Diffusion XL 1.0

Stability AI发布最新图像生成模型Stable Diffusion XL 1.0 今天,Stability AI 宣布推出 Stable Diffusion XL 1.0,这是该公司迄今为止描述为“最先进”的文本到图像模型。Stable Diffusion XL 1.0 可在上以开源形式使用,并提供给 Stability 的和消费者应用程序和 。Stability 声称,与其前代产品相比,Stable Diffusion XL 1.0 提供了“更生动”和“更准确”的颜色,更好的对比度、阴影和照明效果。 在接受采访时,Stability AI 的应用机器学习负责人Joe Penna 指出,Stable Diffusion XL 1.0 包含 35亿个参数,可以“在几秒钟内”生成多种长宽比的 100万像素分辨率的完整图像。“参数”是模型从训练数据中学习到的部分,基本上定义了模型在解决问题上的技能水平。 上一代稳定扩散模型稳定扩散 XL 0.9 也可以生成更高分辨率的图像,但需要更多的计算能力。 、

封面图片

Stability AI 发布了他们最强的图片生成模型 Stable Diffusion 3 的技术报告,披露了 SD3 的更多

Stability AI 发布了他们最强的图片生成模型 Stable Diffusion 3 的技术报告,披露了 SD3 的更多细节。 据他们所说,SD3 在排版质量、美学质量和提示词理解上超过了目前所有的开源模型和商业模型,是目前最强的图片生成模型。 技术报告要点如下: ◆根据人类偏好评估,SD3 在排版质量和对提示的理解程度上,均优于目前最先进的文本生成图像系统,例如 DALL·E 3、Midjourney v6 和 Ideogram v1。 ◆提出了新的多模态扩散 Transformer (Multimodal Diffusion Transformer,简称 MMDiT) 架构,其使用独立的权重集分别表示图像和语言。与 SD3 的先前版本相比,该架构改善了系统对文本的理解能力和拼写能力。 ◆SD3 8B 大小的模型可以在 GTX 4090 24G 显存上运行。 ◆SD3 将发布多个参数规模不等的模型方便在消费级硬件上运行,参数规模从 800M 到 8B 。 ◆SD3 架构以 Diffusion Transformer (简称"DiT",参见 Peebles & Xie,2023)为基础。鉴于文本嵌入和图像嵌入在概念上存在较大差异,我们为这两种模态使用了独立的权重集。 ◆通过这种方法,信息得以在图像 Token 和文本 Token 之间流动,从而提高了模型生成结果的整体理解力和排版质量。我们在论文中还讨论了如何轻松地将这一架构扩展至视频等多模态场景。 ◆SD3 采用了矫正流 (Rectified Flow,简称 RF) 的公式 (Liu et al.,2022;Albergo & Vanden-Eijnden,2022;Lipman et al.,2023),在训练过程中,数据和噪声被连接在一条线性轨迹上。这导致了更直的推理路径,从而可以使用更少的步骤进行采样。 ◆扩展矫正流 Transformer 模型:使用重新加权的 RF 公式和 MMDiT 主干网络,对文本到图像的合成任务开展了模型扩展研究。我们训练了一系列模型,其规模从 15 个 。Transformer 块 (4.5 亿参数) 到 38 个块 (80 亿参数) 不等。

封面图片

字节跳动发布文生图开放模型 SDXL-Lightning,生成速度提升十倍

字节跳动发布文生图开放模型 SDXL-Lightning,生成速度提升十倍 字节跳动发布了文生图开放模型 SDXL-Lightning。据悉,该模型能够在极短的时间内生成高质量和高分辨率的图像,是目前最快的文生图模型之一。 目前,文生图领域的主流模型都采用了扩散过程的生成技术,即通过多次迭代,将噪声逐渐转化为图像。这种技术虽然能够生成逼真的图像,但是也存在着计算资源消耗大、生成速度慢的缺点。生成一张高质量图像,大约需要 5 秒。 字节跳动的 SDXL-Lightning 模型则采用了一种渐进式对抗蒸馏的技术,实现前所未有的生成速度,该模型能够在 2 步或 4 步内生成极高质量和分辨率的图像,将生成速度加快十倍,是 1024 分辨率下速度最快的文生图模型,计算成本则降低为十分之一。 该模型已经在 AI 开源社区 Hugging Face 上公开,跻身模型趋势榜,同时也成为上的热门模型。来源 , 频道:@kejiqu 群组:@kejiquchat

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人