Stability AI推出适用于普通电脑的文本生成图像模型SD3 Medium

StabilityAI推出适用于普通电脑的文本生成图像模型SD3MediumStabilityAI今天宣布基于SD3推出了新版本SD3Medium版，该版本只有2B参数，适合在消费级设备上使用。SD3Medium同样免费，属于开放但非开源的模型，如果需要商业性使用应当购买授权。下载链接：关注频道@ZaiHuaPd频道爆料@ZaiHuabot

在Telegram中查看

相关推荐

Stability AI最新的SD3模型存在严重问题为规避裸体结果导致躯体部分错乱

StabilityAI最新的SD3模型存在严重问题为规避裸体结果导致躯体部分错乱昨天人工智能初创公司StabilityAI推出StableDiffusion3Medium版，该模型是个精简版可以在普通的笔记本电脑和台式机上使用，并且StabilityAI还强调在虽然模型规模较小但精度依然很高。然而在生成某些特定内容时SD3Medium版存在严重的问题，例如当生成的内容是人物时渲染人体部分就会错乱，包括手、脚和躯干部分等。在这种错乱情况下生成的照片看着令人不适，为了避免亮瞎各位这里就不直接放图片了，如果觉得这都是小意思你可以点击这里查看图片。为什么如此先进的模型还会在手指等部分出现低级错误呢？这种错误在文本生成图像模型刚问世的时候常见，现在这种问题按理说早就应该被解决了。在Reddit论坛的讨论中，网友倾向于这是StabilityAI在模型训练过程中产生的问题，StabilityAI可能在训练的数据中就过滤了NSFW图片，同时在模型训练时尽可能避免出现裸体内容，这导致模型在生成图像时可能会刻意将人体结构去除。测试还发现只要使用模型生成的图片中不包含人，那就可以生成比较完美的图片，只有存在人物时才会出现各种躯体错乱的问题，这似乎也可以说明StabilityAI刻意处理了某些内容。对StabilityAI以及所有AI公司来说，模型都需要规避生成可能存在冒犯性的内容，其中裸体内容也在审查范围内，这些问题可能都会阻碍AI技术的发展。尤其是最近一年StabilityAI出现比较糟糕的财务问题，在3月份其创始人兼首席执行官已经离开公司，之前也有3名关键工程师离职，现在模型效果比较糟糕可能会对StabilityAI的财务问题造成更大的影响。相关文章:StabilityAI推出适用于普通电脑的文本生成图像模型SD3Medium...PC版：https://www.cnbeta.com.tw/articles/soft/1434741.htm手机版：https://m.cnbeta.com.tw/view/1434741.htm

Stability AI发布最新图像生成模型Stable Diffusion XL 1.0

StabilityAI发布最新图像生成模型StableDiffusionXL1.0今天，StabilityAI宣布推出StableDiffusionXL1.0，这是该公司迄今为止描述为“最先进”的文本到图像模型。StableDiffusionXL1.0可在上以开源形式使用，并提供给Stability的和消费者应用程序和。Stability声称，与其前代产品相比，StableDiffusionXL1.0提供了“更生动”和“更准确”的颜色，更好的对比度、阴影和照明效果。在接受采访时，StabilityAI的应用机器学习负责人JoePenna指出，StableDiffusionXL1.0包含35亿个参数，可以“在几秒钟内”生成多种长宽比的100万像素分辨率的完整图像。“参数”是模型从训练数据中学习到的部分，基本上定义了模型在解决问题上的技能水平。上一代稳定扩散模型稳定扩散XL0.9也可以生成更高分辨率的图像，但需要更多的计算能力。——、

Stability AI 推出 Stable Audio，基于文本生成最长 90 秒音频

StabilityAI推出StableAudio，基于文本生成最长90秒音频StabilityAI公司近日推出StableAudio，可以基于用户输入的文本内容，自动生成音乐或者音频。免费版StableAudio可以生成最长20秒的音乐片段，而用户在购买Pro订阅之后，可以生成最长90秒的音频内容。StabilityAI公司首席执行官表示：“我们希望音乐爱好者和创意专业人士使用StableAudio工具，帮助生成新的内容，并期待能够激发无限的创造力”。https://stability.ai/blog/stable-audio-using-ai-to-generate-music——

Stability AI 发布了他们最强的图片生成模型 Stable Diffusion 3 的技术报告，披露了 SD3 的更多

StabilityAI发布了他们最强的图片生成模型StableDiffusion3的技术报告，披露了SD3的更多细节。据他们所说，SD3在排版质量、美学质量和提示词理解上超过了目前所有的开源模型和商业模型，是目前最强的图片生成模型。技术报告要点如下：◆根据人类偏好评估,SD3在排版质量和对提示的理解程度上,均优于目前最先进的文本生成图像系统,例如DALL·E3、Midjourneyv6和Ideogramv1。◆提出了新的多模态扩散Transformer(MultimodalDiffusionTransformer,简称MMDiT)架构,其使用独立的权重集分别表示图像和语言。与SD3的先前版本相比,该架构改善了系统对文本的理解能力和拼写能力。◆SD38B大小的模型可以在GTX409024G显存上运行。◆SD3将发布多个参数规模不等的模型方便在消费级硬件上运行，参数规模从800M到8B。◆SD3架构以DiffusionTransformer(简称"DiT",参见Peebles&Xie,2023)为基础。鉴于文本嵌入和图像嵌入在概念上存在较大差异,我们为这两种模态使用了独立的权重集。◆通过这种方法,信息得以在图像Token和文本Token之间流动,从而提高了模型生成结果的整体理解力和排版质量。我们在论文中还讨论了如何轻松地将这一架构扩展至视频等多模态场景。◆SD3采用了矫正流(RectifiedFlow,简称RF)的公式(Liuetal.,2022;Albergo&Vanden-Eijnden,2022;Lipmanetal.,2023),在训练过程中,数据和噪声被连接在一条线性轨迹上。这导致了更直的推理路径,从而可以使用更少的步骤进行采样。◆扩展矫正流Transformer模型：使用重新加权的RF公式和MMDiT主干网络,对文本到图像的合成任务开展了模型扩展研究。我们训练了一系列模型,其规模从15个。Transformer块(4.5亿参数)到38个块(80亿参数)不等。

Stability AI 发布日语 StableLM 模型

StabilityAI发布日语StableLM模型StabilityAI今天发布了日语StableLMAlpha，将其语言模型产品扩展至国际市场，这是面向日语使用者的性能最佳的公开语言模型。新的70亿参数通用语言模型旨在为日本用户提供增强的人工智能文本生成能力。StabilityAI表示，在该公司进行的评估中，日语StableLM的表现优于其他四种基准日语模型。新模型发布了两个版本：和。基础模型设计用于使用大规模日语和英语训练数据进行一般文本生成。指令模型使用监督微调技术进行额外调整，以遵循用户提示和说明。此次发布为日本人工智能开发人员和研究人员提供了适合其语言的新生成模型。这也标志着StabilityAI首次扩展到StableDiffusion等英语语言模型之外。此举标志着随着全球生成式人工智能应用的增加，未来可能会进入其他国际市场。——

Stability AI正式发布了DeepFloyd IF图像生成模型，这是一个有文本编码器和三个级联的diffusion模块组

StabilityAI正式发布了DeepFloydIF图像生成模型，这是一个有文本编码器和三个级联的diffusion模块组合的模型。这个模型的效率要比原有的satblediffusion效率要高很多。我尝试了一下，看起来效果也比SD2.0强一些。划重点，这个模型是认字的生成出来的英文非常工整。文章链接：https://stability.ai/blog/deepfloyd-if-text-to-image-model可以在这里体验模型：https://huggingface.co/spaces/DeepFloyd/IFGithub：https://github.com/deep-floyd/IF模型网站：https://deepfloyd.ai/if

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人