Stability AI正式发布了他们从文字生成动画的工具Stable Animation，感觉效果和能力类似于Gen-1，主要

StabilityAI正式发布了他们从文字生成动画的工具StableAnimation，感觉效果和能力类似于Gen-1，主要包括下面三种能力：文本到动画：用户输入文本提示（与StableDiffusion一样）并调整各种参数以生成动画。文本输入+初始图像输入：用户提供初始图像作为动画的起点。文本提示与图像结合使用以产生最终输出动画。输入视频+文本输入：用户提供初始视频作为动画的基础。通过调整各种参数，获得了最终的输出动画，该动画还由文本提示引导。https://m.okjike.com/originalPosts/645d1483fd7c4754e60eb9f6?s=ewoidSI6ICI1NWY5Mzg0ZjVmMDJjYTE1MDA3YzA4NTMiCn0=

在Telegram中查看

相关推荐

Stability AI发布最新图像生成模型Stable Diffusion XL 1.0

StabilityAI发布最新图像生成模型StableDiffusionXL1.0今天，StabilityAI宣布推出StableDiffusionXL1.0，这是该公司迄今为止描述为“最先进”的文本到图像模型。StableDiffusionXL1.0可在上以开源形式使用，并提供给Stability的和消费者应用程序和。Stability声称，与其前代产品相比，StableDiffusionXL1.0提供了“更生动”和“更准确”的颜色，更好的对比度、阴影和照明效果。在接受采访时，StabilityAI的应用机器学习负责人JoePenna指出，StableDiffusionXL1.0包含35亿个参数，可以“在几秒钟内”生成多种长宽比的100万像素分辨率的完整图像。“参数”是模型从训练数据中学习到的部分，基本上定义了模型在解决问题上的技能水平。上一代稳定扩散模型稳定扩散XL0.9也可以生成更高分辨率的图像，但需要更多的计算能力。——、

Stability AI 发布了他们最强的图片生成模型 Stable Diffusion 3 的技术报告，披露了 SD3 的更多

StabilityAI发布了他们最强的图片生成模型StableDiffusion3的技术报告，披露了SD3的更多细节。据他们所说，SD3在排版质量、美学质量和提示词理解上超过了目前所有的开源模型和商业模型，是目前最强的图片生成模型。技术报告要点如下：◆根据人类偏好评估,SD3在排版质量和对提示的理解程度上,均优于目前最先进的文本生成图像系统,例如DALL·E3、Midjourneyv6和Ideogramv1。◆提出了新的多模态扩散Transformer(MultimodalDiffusionTransformer,简称MMDiT)架构,其使用独立的权重集分别表示图像和语言。与SD3的先前版本相比,该架构改善了系统对文本的理解能力和拼写能力。◆SD38B大小的模型可以在GTX409024G显存上运行。◆SD3将发布多个参数规模不等的模型方便在消费级硬件上运行，参数规模从800M到8B。◆SD3架构以DiffusionTransformer(简称"DiT",参见Peebles&Xie,2023)为基础。鉴于文本嵌入和图像嵌入在概念上存在较大差异,我们为这两种模态使用了独立的权重集。◆通过这种方法,信息得以在图像Token和文本Token之间流动,从而提高了模型生成结果的整体理解力和排版质量。我们在论文中还讨论了如何轻松地将这一架构扩展至视频等多模态场景。◆SD3采用了矫正流(RectifiedFlow,简称RF)的公式(Liuetal.,2022;Albergo&Vanden-Eijnden,2022;Lipmanetal.,2023),在训练过程中,数据和噪声被连接在一条线性轨迹上。这导致了更直的推理路径,从而可以使用更少的步骤进行采样。◆扩展矫正流Transformer模型：使用重新加权的RF公式和MMDiT主干网络,对文本到图像的合成任务开展了模型扩展研究。我们训练了一系列模型,其规模从15个。Transformer块(4.5亿参数)到38个块(80亿参数)不等。

Stability AI 推出 Stable Audio，基于文本生成最长 90 秒音频

StabilityAI推出StableAudio，基于文本生成最长90秒音频StabilityAI公司近日推出StableAudio，可以基于用户输入的文本内容，自动生成音乐或者音频。免费版StableAudio可以生成最长20秒的音乐片段，而用户在购买Pro订阅之后，可以生成最长90秒的音频内容。StabilityAI公司首席执行官表示：“我们希望音乐爱好者和创意专业人士使用StableAudio工具，帮助生成新的内容，并期待能够激发无限的创造力”。https://stability.ai/blog/stable-audio-using-ai-to-generate-music——

Stability AI 发布草图到图像生成 AI 工具

StabilityAI发布草图到图像生成AI工具StabilityAILtd.今天推出了StableDoodle，进一步丰富了其生成式人工智能工具库。该公司表示，这是一款草图到图像工具，可以将简单的草图转换为更动态的图像，它的目标受众是从创意专业人士到业余艺术家的所有人。该公司表示，StableDoodle可供专业人士和新手使用，并且不需要熟悉人工智能工具。用户只需勾画出基本草图并上传，模型就会根据用户的选择将其转换为专业的卡通风格动画、折纸模型甚至逼真的图像。https://clipdrop.co/stable-doodle——

WhatsApp 新增实时人工智能图像生成功能

WhatsApp新增实时人工智能图像生成功能Meta公司正在为美国的WhatsApp用户推出实时人工智能图像生成测试版。在与MetaAI的聊天中，只要在聊天中输入文本到图像的提示，就会看到图像在添加有关要创建的内容的更多详细信息时的变化。此外，Meta公司表示，其MetaLlama3模型现在可以生成“更清晰、更高质量”的图像，并且更擅长显示文本。您还可以让MetaAI为您提供的任何图像制作动画，让您将它们转换为GIF与朋友分享。除了WhatsApp上的功能之外，美国用户还可以通过MetaAI网页版来使用实时图像生成功能。——

整合“Cocreator”AI图像生成器的微软画图工具已经正式发布

整合“Cocreator”AI图像生成器的微软画图工具已经正式发布正如WindowsCentral指出的那样，MicrosoftPaint中的新Cocreator按钮现已广泛发布，使所有用户都能够输入他们正在可视化的内容的描述，并获得三个生成的图像以供选择。虽然图像生成器是MicrosoftPaint的新功能，但该公司已经将DALL-E3文本到图像制作功能融入到其其他服务中。微软的Bing搜索聊天机器人最初是用户输入图像请求的地方，但现在已合并到总体的Copilot生成人工智能助手中。OpenAI还向其付费ChatGPT应用程序用户提供对DALL-E3的访问。Copilot非常强大和有能力，微软已经将Copilot推向了无数产品，从Windows10到Microsoft365服务，但Cocreator和Paint的整合同样感觉是经过深思熟虑的。...PC版：https://www.cnbeta.com.tw/articles/soft/1400739.htm手机版：https://m.cnbeta.com.tw/view/1400739.htm

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人