Stability AI 太惨了老是发消息被忽略,昨晚他们还跟Tripo AI 联合推出了 TripoSR 3D 生成模型,可以

StabilityAI太惨了老是发消息被忽略,昨晚他们还跟TripoAI联合推出了TripoSR3D生成模型,可以在不到1秒的时间里生成高质量的3D模型。TripoSR的推理只需要极低的算力,甚至都不需要GPU,极大的降低了生产成本。权重模型允许商业化使用。性能:TripoSR可以在其他模型所需时间的一小部分时间内创建详细的3D模型。在NvidiaA100上进行测试时,它可以在大约0.5秒内生成初步质量的3D输出(纹理网格),表现优于其他开放的图像到3D模型,如OpenLRM。技术细节:训练数据准备包括多种数据渲染技术,更贴近真实世界中图像的分布,显著提高了模型的泛化能力。精心策划了一个CC-BY,即Objaverse数据集的高质量子集,用于训练数据。在模型方面,还对基础LRM模型进行了多项技术改进,包括通道数优化、蒙版监督和更高效的裁剪渲染策略。详细信息:

相关推荐

封面图片

Stability AI 发布单幅图像生成 3D 对象的 Stable Zero123

StabilityAI发布单幅图像生成3D对象的StableZero123StabilityAI发布了能根据单幅图像生成对象各个角度视图的模型StableZero123。StableZero123是基于StableDiffusion1.5,生成一个视图消耗的内存与StableDiffusion1.5相同,但如果要生成3D视图需要更多时间和更多内存,建议24GB。StableZero123目前只支持研究目的的非商业使用。代码和权重发布在上。来源,频道:@kejiqu群组:@kejiquchat

封面图片

Stability AI 发布 Stable Video 3D

StabilityAI发布StableVideo3DAI创业公司StabilityAI发布了StableVideo3D,输入一个对象的静态照片生成该对象的3D模型。StableVideo3D有两个版本:SV3D_u和SV3D_p,其中SV3D_u输入单幅图像生成轨道视频,无需相机调节;SV3D_p组合了单幅图像和轨道视图,允许沿着指定相机路径创建3D视频。StableVideo3D的商业使用需要付费,非商业使用可在上下载模型权重(9.37GB)。来源,,频道:@kejiqu群组:@kejiquchat

封面图片

Stability AI发布最新图像生成模型Stable Diffusion XL 1.0

StabilityAI发布最新图像生成模型StableDiffusionXL1.0今天,StabilityAI宣布推出StableDiffusionXL1.0,这是该公司迄今为止描述为“最先进”的文本到图像模型。StableDiffusionXL1.0可在上以开源形式使用,并提供给Stability的和消费者应用程序和。Stability声称,与其前代产品相比,StableDiffusionXL1.0提供了“更生动”和“更准确”的颜色,更好的对比度、阴影和照明效果。在接受采访时,StabilityAI的应用机器学习负责人JoePenna指出,StableDiffusionXL1.0包含35亿个参数,可以“在几秒钟内”生成多种长宽比的100万像素分辨率的完整图像。“参数”是模型从训练数据中学习到的部分,基本上定义了模型在解决问题上的技能水平。上一代稳定扩散模型稳定扩散XL0.9也可以生成更高分辨率的图像,但需要更多的计算能力。——、

封面图片

Stability AI 发布了他们最强的图片生成模型 Stable Diffusion 3 的技术报告,披露了 SD3 的更多

StabilityAI发布了他们最强的图片生成模型StableDiffusion3的技术报告,披露了SD3的更多细节。据他们所说,SD3在排版质量、美学质量和提示词理解上超过了目前所有的开源模型和商业模型,是目前最强的图片生成模型。技术报告要点如下:◆根据人类偏好评估,SD3在排版质量和对提示的理解程度上,均优于目前最先进的文本生成图像系统,例如DALL·E3、Midjourneyv6和Ideogramv1。◆提出了新的多模态扩散Transformer(MultimodalDiffusionTransformer,简称MMDiT)架构,其使用独立的权重集分别表示图像和语言。与SD3的先前版本相比,该架构改善了系统对文本的理解能力和拼写能力。◆SD38B大小的模型可以在GTX409024G显存上运行。◆SD3将发布多个参数规模不等的模型方便在消费级硬件上运行,参数规模从800M到8B。◆SD3架构以DiffusionTransformer(简称"DiT",参见Peebles&Xie,2023)为基础。鉴于文本嵌入和图像嵌入在概念上存在较大差异,我们为这两种模态使用了独立的权重集。◆通过这种方法,信息得以在图像Token和文本Token之间流动,从而提高了模型生成结果的整体理解力和排版质量。我们在论文中还讨论了如何轻松地将这一架构扩展至视频等多模态场景。◆SD3采用了矫正流(RectifiedFlow,简称RF)的公式(Liuetal.,2022;Albergo&Vanden-Eijnden,2022;Lipmanetal.,2023),在训练过程中,数据和噪声被连接在一条线性轨迹上。这导致了更直的推理路径,从而可以使用更少的步骤进行采样。◆扩展矫正流Transformer模型:使用重新加权的RF公式和MMDiT主干网络,对文本到图像的合成任务开展了模型扩展研究。我们训练了一系列模型,其规模从15个。Transformer块(4.5亿参数)到38个块(80亿参数)不等。

封面图片

OpenAI发布Shap・E模型:通过输入文本创建逼真3D模型

OpenAI发布Shap・E模型:通过输入文本创建逼真3D模型OpenAI最近发布了名为Shap・E的模型,可以通过输入文本创建逼真且多样化的3D模型。这种模型与现有的只能输出点云或体素的模型不同,可以生成高质量的3D资产,具有细粒度纹理和复杂形状。Shap・E不仅仅是一个3D模型生成器,而且可以直接生成隐式函数的参数,这些参数可以用于渲染纹理网格和神经辐射场(NeRF)。NeRF是一种具有隐式场景表示的新型视场合成技术,在计算机视觉领域引起了广泛的关注。它可以用于视图合成和三维重建,广泛应用于机器人、城市地图、自主导航、虚拟现实/增强现实等领域。值得注意的是,Shap・E模型还可以生成神经辐射场,这是一种新型的三维场景表示方法。通过这种方法,Shap・E可以呈现更加真实的光照效果和材质感,让3D图像更加生动、逼真。未来,这种模型可能会被广泛应用于游戏、电影、建筑等领域,为人们带来更加精彩、逼真的视觉体验。#AI来源,https://github.com/openai/shap-e来自:雷锋频道:@kejiqu群组:@kejiquchat投稿:@kejiqubot

封面图片

NVIDIA新AI模型可将视频生成高精模型 3D扫描效率剧增

NVIDIA新AI模型可将视频生成高精模型3D扫描效率剧增据悉,Neuralangelo模型之所以能够有着这样的效果,是因为它采用了即时神经绘图,并利用了自家的InstantNeRF技术。这使得它即使是面对于低对比度的视频,也可以从中捕捉到微妙的细节,并转换为更具备商业价值的3D模型。对于3D模型扫描来说,该技术的诞生,将改变目前高精度扫描以手动雕刻为主的产出流程,从而让开发人员能够以更高的效率,制作精细物体的数字孪生。据不出意外,NVIDIA将在6月18日至22日举办的CVPR(omputerVisionandPatternRecognition,即电脑视觉与样式辨识)大会上,正式发布Neuralangelo模型。...PC版:https://www.cnbeta.com.tw/articles/soft/1363115.htm手机版:https://m.cnbeta.com.tw/view/1363115.htm

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人