接上条动态，我刚让 New Bing 帮我读的就是这篇阿里最新发布的论文 Composer，一个很能打的图像生成模型。

接上条动态，我刚让 New Bing 帮我读的就是这篇阿里最新发布的论文 Composer，一个很能打的图像生成模型。它不仅拥有主流模型的生成能力，还有基于描述词、深度图、蒙版等的编辑能力。更厉害的是（也是这次的主打功能），它能对这些编辑条件进行混搭使用，让AI编辑能力直线上升。（用调色板改图的功能我实在太爱了…[苦涩]） ▶ ▶（项目地址还有很多案例，记得点进去看看）噢对，即将开源。

在Telegram中查看

相关推荐

ML Blocks：无代码AI图像生成和分析工作流平台

ML Blocks：无代码AI图像生成和分析工作流平台它提供了一个拖放式的界面，允许用户轻松地创建复杂的图像处理工作流，无需编写任何代码。你只根据需要将不同的功能块（如图像编辑功能和AI模型）组合在一起，即可实现个性化的图像自动化处理。该工具主要解决在电商领域遇到的批量处理图片问题。 ML Blocks允许用户创建可以处理多步骤图像生成或分析管道的自定义图像处理工作流，使用基于图的工作流。用户只需按顺序连接几个块，如去背景 -> 裁剪 -> AI上采样，就可以在几分钟内得到完整的图像处理工作流。主要功能：生成图像：使用 Stable Diffusion 等 AI 模型生成或绘制图像。编辑图像：提供编辑功能，如裁剪、调整大小、重新着色等，来修改图像。分析图像：利用检测或分割模型从图像中提取数据。实际应用示例：基于提示模糊图像特定区域：传统方法需要使用DINO模型生成提示中提到的对象周围的边界框，然后使用像Segment Anything这样的分割模型生成这些区域的遮罩，最后使用Pillow或OpenCV库编写模糊功能来模糊遮罩区域。而使用ML Blocks，用户只需将分割、遮罩和模糊块连接起来，就能在2分钟内完成工作流程。你还可以自动生成博客帖子或推文的横幅图像、根据提示移除图像中的对象、去除背景并用AI创建新背景等多种工作流程。 |

Stability AI试图通过新的图像生成人工智能模型保持领先地位

Stability AI试图通过新的图像生成人工智能模型保持领先地位 Stable Cascade 可以生成照片，并对所创建的图片进行修改，或尝试提高现有图片的分辨率。其他文本到图片的编辑功能还包括内画和外画（模型只对图片的特定部分进行填充编辑），以及可视边缘（用户可利用现有图片的边缘制作新照片）。根据提示"一张拟人企鹅坐在咖啡馆里看书喝咖啡的电影照片"生成的Stable Cascade图像。新模型可在GitHub 上供研究人员使用，但不能用于商业用途。在Google甚至苹果等公司发布自己的图像生成模型时，新模型也带来了更多选择。与 Stability 的旗舰产品 Stable Diffusion 模型不同，Stable Cascade 并不是一个大型语言模型，而是三个不同的模型，它们都依赖于Würstchen 架构。Stable Cascade与其他模型的推理时间比较将请求分解成更小的比特后，请求所需的内存更少（在那些很难找到的 GPU 上训练的时间也更少），运行速度更快，同时在"提示对齐和美学质量"方面表现更佳。创建一幅图像大约需要 10 秒，而目前使用的 SDXL 模型需要 22 秒。Stability AI公司帮助普及了Stable Diffusion方法，同时也成为了几起诉讼的对象，这些诉讼指控Stable Diffusion公司在未经权利人许可的情况下对受版权保护的数据进行了训练 - Getty图片公司对Stability AI公司的诉讼将于 12 月开庭审理。该公司于 12 月开始通过订阅的方式提供商业许可，并表示这是帮助其研究获得资金所必需的。 ... PC版：手机版：

：Stability AI最新推出的高级文本到图像AI模型，适合在消费级PC、笔记本及企业级GPU上运行，有望成为文本到图像模型

：Stability AI最新推出的高级文本到图像AI模型，适合在消费级PC、笔记本及企业级GPU上运行，有望成为文本到图像模型的新标准 - Stability AI公开发布了Stable Diffusion 3 Medium图像生成模型，这是目前该公司最先进的开源文本到图像模型。 - Stable Diffusion 3 Medium是一个20亿参数量的模型，相比之前的模型有显著改进：整体图像质量和逼真度大幅提升，能够生成高质量的照片逼真图像；理解长难句子描述的能力增强；文字质量也有很大提升，减少拼写、字间距等错误。 - 该模型大小适中，非常适合在普通消费级PC和笔记本电脑上运行，也能在企业级GPU上充分发挥性能。它有望成为文本到图像模型的新标准。 - Stable Diffusion 3 Medium在Stability非商业研究社区许可证下对外开源。对于商业用途，鼓励使用新的Creator许可证。大规模商业使用还需联系Stability取得企业许可证。 - 用户可以通过Stability的API、Stable Assistant和Stable Artisan等渠道试用Stable Diffusion 3 Medium。 - Stability AI表示会根据用户反馈持续改进该模型，扩展其功能，提升性能。目标是为艺术创作和业余用户都设定一个新的标准。 - Stability AI坚持开放和负责任的AI实践，在模型的训练、测试、部署等各个阶段采取合理措施防止模型被恶意滥用。

Adobe下一代Photoshop将提供更先进的基于人工智能的图像创建模型

Adobe下一代Photoshop将提供更先进的基于人工智能的图像创建模型 Adobe 在通过电子邮件发送的新闻稿中称，Firefly Image 3 与上一代产品相比，将能创建质量更高的图像，图像的种类和细节也更丰富。此外，它还能更好地理解文字提示。Firefly Image 3 也将包含在新的 Photoshop 测试版中。Adobe 表示，该软件将包括对其 Generation Fill AI 编辑功能的改进和一些新功能：Reference Image 利用用户选择的图像作为生成灵感，帮助创意人员实现他们想象的输出。文本到图像和生成图像功能首次在 Photoshop 中直接实现了完整的文本到图像功能，缩短了空白页与内容之间的距离。生成背景可替换和创建背景，使生成与现有图像完美融合的内容变得前所未有的简单。通过"生成相似"功能，创作者可以对自己选择的变体进行迭代，以更精确的控制更深入地探索创作理念。增强细节微调图像，提高清晰度和锐利度新版 Photoshop 今天可在桌面上使用测试版标签。Firefly Image 3 今天也推出了测试版，可在其官方网站上访问。Adobe 的免费和付费计划提供不同数量的生成点数，可用于在网站上创建图像。除了新版 Photoshop 和 Firefly Image 3 之外，Adobe 还发布了新版 Adobe Express 移动应用程序。这些应用程序现在具有许多新功能和改进。它们包括 Firefly AI 图像创建、文本效果和生成填充等编辑功能。 ... PC版：手机版：

OpenAI宣布关闭DALL-E 2图像生成模型因为已经有更强大的DALL-E 3

OpenAI宣布关闭DALL-E 2图像生成模型因为已经有更强大的DALL-E 3 到 2023 年 9 月 OpenAI 宣布推出 DALL-E 3，这是 DALL-E 2 的升级版本，具有更好的图片生成特性，例如可以生成更高质量的图片、更准确地反映提示词，尤其是在处理常提示词内容是可以更好地理解并创建图片。当然重点是新版本解决了文本内容和人手的问题，文本内容指的是如果要在图片中显示一段文字或单词，那么 AI 模型无法处理；人手问题则是生成时人类可能有六只手指等。在 DALL-E 3 发布半年后，OpenAI 现在已经决定退役 DALL-E 2，当用户尝试登录 OpenAI 访问 DALL-E 2 页面时，页面会提示：我们不再允许新用户使用 DALL-E 2，DALL-E 3 具有更高质量的图像、改进了提示依从性，我们已经开始推出图像编辑功能，该功能适用于 ChatGPT Plus、ChatGPT Team、ChatGPT Enterprise 以及 OpenAI API 用户。所以实际上用户是无法继续使用 DALL-E 2 生成图像的，当然这也不是什么坏事，用户可以继续使用 DALL-E 3 并创建更多有趣的内容。 ... PC版：手机版：

苹果发布人工智能模型MGIE 可根据自然语言输入编辑图片

苹果发布人工智能模型MGIE 可根据自然语言输入编辑图片该模型能够编辑图像的各个方面。全局照片增强可包括亮度、对比度或锐利度，或应用素描等艺术效果。局部编辑可以修改图像中特定区域或对象的形状、大小、颜色或纹理，而 Photoshop 风格的修改则包括裁剪、调整大小、旋转和添加滤镜，甚至是更改背景和混合图像。用户对一张披萨照片的输入可能是"让它看起来更健康"。利用常识推理，模型可以添加蔬菜配料，如西红柿和香草。全局优化输入请求的形式可以是"增加对比度，模拟更多光线"，而 Photoshop 风格的修改可以是要求模型将人物从照片背景中移除，将图像的焦点转移到拍摄对象的面部表情上。苹果公司与加州大学的研究人员合作创建了 MGIE，并在 2024 年国际学习表征会议（ICLR）上发表了一篇论文。该模型可在 GitHub 上获取，包括代码、数据和预训练模型。这是苹果公司几个月来在人工智能研究领域取得的第二次突破。12 月底，苹果公司透露，通过发明一种创新的闪存利用技术，它在 iPhone 和其他内存有限的苹果设备上部署大型语言模型 (LLM) 方面取得了长足进步。在过去的几个月里，苹果一直在测试一种可以与 ChatGPT 竞争的"Apple GPT"。据彭博社的马克-古尔曼（Mark Gurman）称，人工智能工作是苹果公司的一个优先事项，该公司正在为大型语言模型设计一个"Ajax"框架。The Information和分析师杰夫-普（Jeff Pu）都声称，苹果将在2024 年底左右在 iPhone 和 iPad 上推出某种生成式人工智能功能，也就是 iOS 18 上市的时候。据古尔曼称，iOS 18 据说将包括一个增强版 Siri，具有类似 ChatGPT 的生成式人工智能功能，并有可能成为 iPhone 历史上"最大的"软件更新。 ... PC版：手机版：

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人