Google推出Lumiere生成式AI 可基于文本提示创建逼真的图像和视频

Google推出Lumiere生成式AI 可基于文本提示创建逼真的图像和视频这听起来可能并不令人印象深刻，但有了最新的生成式人工智能工具的帮助，我们就能走得更远，创造出令人惊叹的作品。Lumiere 还使用扩散概率模型来帮助生成图像。这与时空 U-Net 相结合。对于那些不了解的人来说，U-Net 是一种架构，它能带来时间上的放大和缩小，以及添加到图像中的注意力区块。最棒的是，这种新的生成式人工智能工具可以与许多其他模型一起使用，这将有助于创建比我们之前看到的任何图像和视频都更加逼真的图像和视频。Lumiere 可用于创建以下内容：电影胶片将图像的单一部分制作成动画动画视频中的一个物体可以被另一个物体取代风格化生成：任何创作的艺术风格都可以改变为其他风格图像到视频：帮助制作任何所需图像的动画视频到视频：允许用户创建不同艺术风格的视频在撰写本文时，Lumiere创建的视频长度最长仅为 5 秒，而且还不具备创建视频转换和多角度摄像的功能。另外值得注意的是，如果你想试用 Lumiere，仅靠标准 GPU 是不行的。PC本身必须有强大的图形处理能力，否则该工具根本无法运行。访问试用： ... PC版：手机版：

在Telegram中查看

相关推荐

Stability AI 发布草图到图像生成 AI 工具

Stability AI 发布草图到图像生成 AI 工具 Stability AI Ltd.今天推出了Stable Doodle，进一步丰富了其生成式人工智能工具库。该公司表示，这是一款草图到图像工具，可以将简单的草图转换为更动态的图像，它的目标受众是从创意专业人士到业余艺术家的所有人。该公司表示，Stable Doodle 可供专业人士和新手使用，并且不需要熟悉人工智能工具。用户只需勾画出基本草图并上传，模型就会根据用户的选择将其转换为专业的卡通风格动画、折纸模型甚至逼真的图像。

微软正在 Windows 11 的画图（Paint）中测试由 DALL-E 驱动的文本到图像创建器

微软正在 Windows 11 的画图（Paint）中测试由 DALL-E 驱动的文本到图像创建器微软在中宣布，正在 Windows 11 的 Microsoft 画图（Paint）中测试由 DALL-E 驱动的文本到图像创建器。该工具称为 Paint Cocreator，根据用户输入的描述创建艺术作品。或者，用户可以选择一种艺术风格，然后 Cocreator 将生成三种变体。选择他们喜欢的作品后，客户可以通过添加图层等方式编辑图稿，这也是画图（Paint）的一项新功能。

ImageFX 是一款由 Google 最先进的文本到图像模型 Imagen 2 提供支持的新图像生成工具。我们很高兴将其添加到

ImageFX 是一款由 Google 最先进的文本到图像模型 Imagen 2 提供支持的新图像生成工具。我们很高兴将其添加到实验室的生成式人工智能工具套件中，并帮助您将最具创意的想法变为现实。使用链接： via 匿名标签: #Google 频道: @GodlyNews1 投稿: @GodlyNewsBot

Stability AI推出Stable Diffusion 3 提示文本理解更好、图像质量更强

Stability AI推出Stable Diffusion 3 提示文本理解更好、图像质量更强 Stable Diffusion 3的参数在8亿80亿之间，也就是说Stable Diffusion 3可能是专为移动设备开发的，AI算力消耗将更低，推理速度却更快。目前，Stable Diffusion 3支持申请使用，未来会扩大测试范围。申请地址： Diffusion 3的技术内容，但指出其核心架构使用了Transformer和Flow FMatching（简称“FM”）。Transformer大家都很熟悉了，ChatGPT、T5 、BERT等很多著名模型都是基于该架构开发的。而FM是Meta AI和魏茨曼科学研究所在2022年10月发布的，一种全新高效建模、训练技术概念。Flow Matching论文地址： Matching简单介绍目前，很多文生图模型使用的是CNF（连续正规化流动）训练方法，主要使用常微分方程对流动进行建模，实现从一种已知分布到目标分布的平滑映射。但由于训练过程需要进行大量的微分方程模拟，会导致算力成本高、模型设计复杂、可解释性差等缺点。FM则是放弃微分方程的直接模拟,而是通过回归固定条件概率轨迹来实现无模拟训练。研究人员设计了条件概率分布与向量场的概念,利用边缘分布的结合可以建立总体目标概率轨迹与向量场,从而消除了模拟过程对梯度计算的影响。1）条件概率路径构建：FM需要给出一个目标概率路径,该路径从简单分布演变到逼近数据分布。然后利用条件概率路径构建了目标路径,这样每个样本有一个对应的条件路径。2）变换层：构成FM的基本单元，每个变换层都是可逆的。这意味着从输入到输出的每一步映射都可以精确地反转，从而允许从目标分布反推到原始分布。3）耦合层：将输入分成两部分，对其中一部分应用变换，而变换函数可以是任意的神经网络，其参数由另一部分决定，保证了变换的可逆性。目前，FM技术已在图像生成与超分辨率、图像理解、图像修复与填充、条件图像生成、图像风格迁移与合成、视频处理等领域得到广泛应用。Stable Diffusion 3案例展示本次的发布页面也是由Stable Diffusion 3生成的，提示词：史诗般的动漫艺术风格，一位巫师站在夜间的山顶上，向黑暗的天空施放咒语，上面写着由彩色能量生成的“Stable Diffusion 3”文字教室桌子上有一个红苹果，电影风格，背景的黑板上用粉笔写着“要么做大，要么回家”一名宇航员骑着一只穿着蓬蓬裙的猪，撑着一把粉色的伞，猪旁边的地上有一只戴着高帽的知更鸟，角落里写着"Stable Diffusion"的字样。一只变色龙，黑色背景，摄影风格。一辆跑车的夜间照片，侧面写有“SD3”字样，汽车在赛道上高速行驶，巨大的路标上写着“更快”的文字。波浪冲击苏格兰灯塔的鱼眼镜头照片，黑色波浪。 ... PC版：手机版：

Meta 推出独立的人工智能图像生成器，目前免费但只支持英文提示词

Meta 推出独立的人工智能图像生成器，目前免费但只支持英文提示词 Meta 在网页上推出了一种新的、独立的生成式人工智能体验「」，它允许用户通过用自然语言描述图像来创建图像。新的人工图像生成器由 Meta 现有的 Emu 图像生成模型提供支持，可根据文本提示创建高分辨率图像。它目前对美国的英语用户免费使用，并且每个提示都会生成四个图像。

Google Cloud宣布，其最新的图像生成技术Imagen 2 on Vertex AI已经正式上线，为Vertex AI客

Google Cloud宣布，其最新的图像生成技术Imagen 2 on Vertex AI已经正式上线，为Vertex AI客户提供服务。这一技术是Google Cloud图像生成能力的重大升级，采用了先进的文本到图像技术，为开发者提供了全面的定制化工具、完全托管的基础设施以及内置的隐私和安全功能。 Imagen 2 on Vertex AI基于Google DeepMind技术的研发成果，实现了显著提升的图像质量，并提供了一系列功能，使开发者能够根据其特定用例创建图像，包括： -从自然语言提示生成高质量、逼真、高分辨率、美观的图像 -支持多语言的文本渲染，以创建带有准确文本叠加的图像 -生成公司或产品标识并将其叠加在图像中的Logo -实现视觉问答，从图像生成描述性标题，并对图像细节的问题提供信息性文本回答此外，Imagen 2 on Vertex AI的适用性扩展得更广，包括以下新功能： -高质量图像：Imagen 2通过改进的图像+文本理解和多种创新训练和建模技术，可以实现准确、高质量、逼真的输出 -文本渲染支持：Imagen 2能够解决文本到图像技术常常存在的问题，确保输出图像中正确呈现所需的词语或短语，帮助组织在品牌和信息传递方面实现更深层次控制 -Logo生成：Imagen 2可以为企业、品牌和产品生成各种创意和逼真的Logo，包括徽标、字母标志和抽象标志，并具备将这些Logo叠加到产品、服装、名片和其他表面的能力 -图片描述和问答：Imagen 2的增强图像理解能力使客户能够创建描述性的长篇文字说明，并获得关于图像细节问题的详细答案 -多语言提示：除了英语，Imagen 2还支持六种其他语言（中文、印地语、日语、韩语、葡萄牙语、西班牙语）的预览版本，并计划在2024年初发布更多语言的支持。此功能包括在提示和输出之间进行翻译的能力，例如，用西班牙语提示但指定输出应为葡萄牙语 -安全性：Imagen 2包含内置的安全预防措施，确保生成的图像符合Google的负责任人工智能原则。如，Imagen 2与我们的实验性数字水印服务集成，由Google DeepMind的SynthID提供支持，允许授权访问的客户生成隐形水印并验证Imagen生成的图像。Imagen 2还包含全面的安全过滤器，帮助防止生成潜在有害内容标签: #Google #AI 频道: @GodlyNews1 投稿: @GodlyNewsBot

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人