Stability AI 太惨了老是发消息被忽略,昨晚他们还跟Tripo AI 联合推出了 TripoSR 3D 生成模型,可以

Stability AI 太惨了老是发消息被忽略,昨晚他们还跟Tripo AI 联合推出了 TripoSR 3D 生成模型,可以在不到 1 秒的时间里生成高质量的 3D 模型。 TripoSR的推理只需要极低的算力,甚至都不需要 GPU,极大的降低了生产成本。权重模型允许商业化使用。 性能:TripoSR可以在其他模型所需时间的一小部分时间内创建详细的3D模型。在Nvidia A100上进行测试时,它可以在大约0.5秒内生成初步质量的3D输出(纹理网格),表现优于其他开放的图像到3D模型,如OpenLRM。 技术细节:训练数据准备包括多种数据渲染技术,更贴近真实世界中图像的分布,显著提高了模型的泛化能力。精心策划了一个CC-BY,即Objaverse数据集的高质量子集,用于训练数据。在模型方面,还对基础LRM模型进行了多项技术改进,包括通道数优化、蒙版监督和更高效的裁剪渲染策略。 详细信息:

相关推荐

封面图片

新的Meta 3D Gen可在一分钟内根据文本生成高质量的3D素材

新的Meta 3D Gen可在一分钟内根据文本生成高质量的3D素材 Meta 的人工智能研究团队最近推出了 Meta 3D Gen (3DGen),这是一种用于文本到 3D 素材生成的最先进的新系统。Meta 声称,这一新系统可以在一分钟内生成高质量的 3D 素材。生成的三维素材将具有高分辨率纹理和材质贴图。3DGen 还支持基于物理的渲染(PBR)和对以前生成的 3D 素材进行生成再纹理。Meta 3D Gen 结合了两个主要组件:文本到 3D 生成和文本到纹理生成。下面是它的工作原理:第一阶段:三维素材生成根据用户提供的文本提示,第一阶段使用 Meta 的三维素材生成模型(AssetGen)创建初始三维素材。这一步将生成带有纹理和 PBR 材质贴图的 3D 网格。推理时间约为 30 秒。第 2 阶段:用例 1:生成三维纹理细化根据阶段 1 生成的三维素材和初始文本提示,阶段 2 将为该素材生成更高质量的纹理和 PBR 贴图。它使用 Meta 的文本到纹理生成器 Meta 3D TextureGen。推理时间约为 20 秒。用例 2:生成三维(再)纹理给定一个未纹理化的三维网格和一个描述其所需外观的提示。阶段 2 还可以从头开始为该三维素材生成纹理(网格可以是以前生成的,也可以是艺术家创建的)。推理时间约为 20 秒。您可以在这里阅读 Meta 3D Gen 的技术论文全文。Meta 公司还发表了技术论文,介绍他们用于高质量三维模型生成和基于文本提示的纹理生成的方法,这些方法是 Meta 3D Gen 系统的基础。 ... PC版: 手机版:

封面图片

Stability AI 发布单幅图像生成 3D 对象的 Stable Zero123

Stability AI 发布单幅图像生成 3D 对象的 Stable Zero123 Stability AI 发布了能根据单幅图像生成对象各个角度视图的模型 Stable Zero123。Stable Zero123 是基于 Stable Diffusion 1.5,生成一个视图消耗的内存与 Stable Diffusion 1.5 相同,但如果要生成 3D 视图需要更多时间和更多内存,建议 24GB。Stable Zero123 目前只支持研究目的的非商业使用。代码和权重发布在上。来源 , 频道:@kejiqu 群组:@kejiquchat

封面图片

OpenAI发布Shap・E模型:通过输入文本创建逼真3D模型

OpenAI发布Shap・E模型:通过输入文本创建逼真3D模型 OpenAI最近发布了名为Shap・E的模型,可以通过输入文本创建逼真且多样化的3D模型。这种模型与现有的只能输出点云或体素的模型不同,可以生成高质量的3D资产,具有细粒度纹理和复杂形状。 Shap・E不仅仅是一个3D模型生成器,而且可以直接生成隐式函数的参数,这些参数可以用于渲染纹理网格和神经辐射场(NeRF)。NeRF是一种具有隐式场景表示的新型视场合成技术,在计算机视觉领域引起了广泛的关注。它可以用于视图合成和三维重建,广泛应用于机器人、城市地图、自主导航、虚拟现实/增强现实等领域。 值得注意的是,Shap・E模型还可以生成神经辐射场,这是一种新型的三维场景表示方法。通过这种方法,Shap・E可以呈现更加真实的光照效果和材质感,让3D图像更加生动、逼真。未来,这种模型可能会被广泛应用于游戏、电影、建筑等领域,为人们带来更加精彩、逼真的视觉体验。#AI 来源 , 来自:雷锋 频道:@kejiqu 群组:@kejiquchat 投稿:@kejiqubot

封面图片

Stability AI 发布 Stable Video 3D

Stability AI 发布 Stable Video 3D AI 创业公司 Stability AI 发布了 Stable Video 3D,输入一个对象的静态照片生成该对象的 3D 模型。Stable Video 3D 有两个版本:SV3D_u 和 SV3D_p,其中 SV3D_u 输入单幅图像生成轨道视频,无需相机调节;SV3D_p 组合了单幅图像和轨道视图,允许沿着指定相机路径创建 3D 视频。Stable Video 3D 的商业使用需要付费,非商业使用可在上下载模型权重(9.37GB)。来源 ,, 频道:@kejiqu 群组:@kejiquchat

封面图片

一个无限高质量3D数据的生成器,使用程序生成的无限逼真世界

一个无限高质量3D数据的生成器,使用程序生成的无限逼真世界 100%的程序化生成,不需要外部资产,也不依赖AI。并且是免费开源的。生成质量非常高,可以说达到以假乱真的地步!甚至是花瓣上的皱纹都可定制 Infinigen由普林斯顿视觉和学习实验室开发,Infinigen的主要特性和功能包括: 1、程序化:Infinigen是一个程序生成器,它完全使用随机的数学规则来创建所有的形状和材料,从宏观结构到微观细节。Infinigen可以创建无限的变化。用户可以通过覆盖随机化的默认参数来完全控制资产的生成。 2、多样化:Infinigen为自然世界中的多样化对象和场景提供生成器,包括植物、动物、地形,以及火、云、雨、雪等自然现象。当前对自然的关注是由于观察到哺乳动物的视觉在自然世界中进化。然而,预计Infinigen将随着时间的推移扩展到覆盖建筑环境和人造物体。 3、真实的几何形状:Infinigen针对计算机视觉研究进行了优化,特别是3D视觉。Infinigen不使用bump/normal-maps、全透明度或其他伪造几何细节的技术。Infinigen的所有细微的几何细节都是真实的,确保了精确的3D地面真实性。 4、自动注释:Infinigen可以自动生成各种计算机视觉任务的高质量注释,包括光流、3D场景流、深度、表面法线、全景分割、遮挡边界。因为用户可以完全访问渲染过程,所以注释很容易定制。 || #生成器

封面图片

Stability AI 发布了他们最强的图片生成模型 Stable Diffusion 3 的技术报告,披露了 SD3 的更多

Stability AI 发布了他们最强的图片生成模型 Stable Diffusion 3 的技术报告,披露了 SD3 的更多细节。 据他们所说,SD3 在排版质量、美学质量和提示词理解上超过了目前所有的开源模型和商业模型,是目前最强的图片生成模型。 技术报告要点如下: ◆根据人类偏好评估,SD3 在排版质量和对提示的理解程度上,均优于目前最先进的文本生成图像系统,例如 DALL·E 3、Midjourney v6 和 Ideogram v1。 ◆提出了新的多模态扩散 Transformer (Multimodal Diffusion Transformer,简称 MMDiT) 架构,其使用独立的权重集分别表示图像和语言。与 SD3 的先前版本相比,该架构改善了系统对文本的理解能力和拼写能力。 ◆SD3 8B 大小的模型可以在 GTX 4090 24G 显存上运行。 ◆SD3 将发布多个参数规模不等的模型方便在消费级硬件上运行,参数规模从 800M 到 8B 。 ◆SD3 架构以 Diffusion Transformer (简称"DiT",参见 Peebles & Xie,2023)为基础。鉴于文本嵌入和图像嵌入在概念上存在较大差异,我们为这两种模态使用了独立的权重集。 ◆通过这种方法,信息得以在图像 Token 和文本 Token 之间流动,从而提高了模型生成结果的整体理解力和排版质量。我们在论文中还讨论了如何轻松地将这一架构扩展至视频等多模态场景。 ◆SD3 采用了矫正流 (Rectified Flow,简称 RF) 的公式 (Liu et al.,2022;Albergo & Vanden-Eijnden,2022;Lipman et al.,2023),在训练过程中,数据和噪声被连接在一条线性轨迹上。这导致了更直的推理路径,从而可以使用更少的步骤进行采样。 ◆扩展矫正流 Transformer 模型:使用重新加权的 RF 公式和 MMDiT 主干网络,对文本到图像的合成任务开展了模型扩展研究。我们训练了一系列模型,其规模从 15 个 。Transformer 块 (4.5 亿参数) 到 38 个块 (80 亿参数) 不等。

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人