苹果发布了一个可以利用LLM 生成动画的框架Keyframer。

苹果发布了一个可以利用LLM 生成动画的框架Keyframer。 Keyframer允许用户通过自然语言提示来创建静态2D图像的动画。 它使用GPT-4生成CSS动画代码,支持用户通过多种编辑器类型直接编辑生成的动画。 用户可以通过顺序提示和请求LLM生成的设计变体来迭代他们的设计。 论文链接:

相关推荐

封面图片

Meta 发布了一个可以利用 AI 自动剪辑视频的 Agents LAVE。

Meta 发布了一个可以利用 AI 自动剪辑视频的 Agents LAVE。 这玩意再加上 Sora 这样的视频生成模型,一些简单的短视频以及广告视频基本上就不需要人工介入了,大家以后刷的估计都是生成出来的视频了,想要啥有啥。 我下面会简单介绍一下这个剪辑工具的界面组成和 Agents 设计: -工具界面及交互(图 1)- A 区域主要是输入提示词以及展示 LLM 详细的剪辑逻辑。 B 区域是素材库,你可以鼠标 Hover 后获得 LLM 帮你总结的这段视频的内容,不需要播放查看, AI 也会自动生成的素材标题。 E 区域就是传统的视频时间轴,AI 剪辑的视频就在这里,你也可以手动调整。 -Agents 设计(图 2)- 1⃣系统提示前言: 角色分配:一个开场段指示Agents担任视频编辑助理,负责根据用户命令生成行动计划。 动作描述:在角色分配之后,描述了Agents可以执行的一系列动作。每个动作对应于LAVE支持的编辑功能。详细说明了每个动作的功能和用例,帮助Agents选择适当的响应以满足用户的命令。 格式指导:最后,指导Agents以一致的格式输出行动计划:首先确定用户的编辑目标,然后列出逐步计划,列举建议的行动以实现该目标。 其他系统提示: 在前言之后,附加了最近的对话历史,以及最新的用户输入。这种组合形成了发送给LLM以生成行动计划的完整提示。 2⃣制定行动计划后,将其提交给用户进行批准: 与批量批准不同,每个行动都由用户依次批准。这种方法允许用户执行一个行动,观察其结果,然后决定是否继续进行下一个行动。LAVE从行动计划中解析每个行动描述,并将其转化为相应的后端函数调用。 3⃣LAVE支持五种LLM功能: 1)素材概览,2)创意头脑风暴,3)视频检索,4)故事板,5)剪辑修剪。前四种功能可通过Agents访问,而剪辑修剪可通过双击编辑时间轴上的剪辑时出现的窗口进行。 其中,基于语言的视频检索是通过向量存储数据库实现的,而其余功能则是通过LLM提示工程实现的。所有功能都是基于自动生成的语言构建的。

封面图片

RPG-DiffusionMaster是一个全新的无需训练的文本到图像生成/编辑框架,利用多模态LLM的链式推理能力增强文本到图

RPG-DiffusionMaster是一个全新的无需训练的文本到图像生成/编辑框架,利用多模态LLM的链式推理能力增强文本到图像扩散模型的组合性。 该框架采用MLLM作为全局规划器,将复杂图像生成过程分解为多个子区域内的简单生成任务。同时提出了互补的区域扩散以实现区域化的组合生成。此外,在提出的RPG框架中闭环地集成了文本引导的图像生成和编辑,从而增强了泛化能力。 大量实验证明,RPG-DiffusionMaster在多类别对象组合和文本-图像语义对齐方面优于DALL-E 3和SDXL等最先进的文本到图像扩散模型。特别地,RPG框架与各种MLLM架构(例如MiniGPT-4)和扩散骨干(例如ControlNet)兼容性广泛。 需求人群: "RPG-DiffusionMaster可用于文本到图像生成和编辑,特别擅长处理复杂的文本提示和多对象多属性关系。" 使用场景示例: 使用RPG-DiffusionMaster生成包含多个对象的图像 利用RPG-DiffusionMaster编辑图像以实现文本语义对齐 采用RPG-DiffusionMaster进行文本到图像生成的实验 产品特色: 利用多模态LLM进行全局规划 将复杂图像生成过程分解为简单生成任务 实现区域化的组合生成 闭环集成文本引导的图像生成和编辑 提高泛化能力 优于其他文本到图像扩散模型 | #框架

封面图片

微软和 Deepmind 的一篇论文探讨利用 LLM 从设计生成代码,这个实践经验对想做相关 Design2Code 工具的很有

微软和 Deepmind 的一篇论文探讨利用 LLM 从设计生成代码,这个实践经验对想做相关 Design2Code 工具的很有参考性。 我整理了一下里面对我们自己通过 LLM 生成代码可能有用的提示词和经验。感兴趣可以看看。 他们发现第一次生成的网页通常质量不太行,但是第二次增强提示之后 GPT-4V 生成网页代码质量明显变好,下面是对应提示词。 第一次代码生成提示词: 假设你是一位精通HTML和CSS的网页开发专家。当用户提供一张网页的截图给你时,你的任务是创建一个HTML文件。这个文件需要用HTML和CSS编码来精确还原截图中的网站设计。重要的是,所有的CSS样式代码都要直接写在HTML文件里,而不是链接到其他文件。 如果原网页中有图片,你可以用一个名为"rick.jpg"的图片作为所有图片的替代品。即便网页中的某些图片已经被蓝色的矩形占位符替代了,你同样需要使用"rick.jpg"作为这些位置的图片。记住,你的HTML文件中不应包含任何外部文件的链接。 此外,这个任务不需要你使用JavaScript编写动态交互脚本。你的重点应该放在复原网页元素的大小、文本、位置、颜色以及整体布局上。最终,你需要提供完整的HTML文件内容,其中包含了所有必要的CSS样式代码。 增强提示词: 作为一名擅长HTML和CSS的网页开发高手,你面临的挑战是修改一个已有的HTML文件。这个文件是用来构建一个网页的,但它目前有一些缺失或错误的部分,使得它与原网页有所不同。我将向你展示我想要创建的网页原型和目前HTML实现的网页效果。同时,我也会提供你我想在网页中包含的所有文本。 你的任务是仔细比较这两个网页,并根据提供的文本内容,修改原始的HTML代码。你需要确保新的实现在外观上与参考网页完全一致。在编码时,要保证HTML代码语法正确,能够生成一个结构完整的网页。对于需要图片的地方,你可以暂时用一个名为"rick.jpg"的图片作为占位符。 在进行代码修订时,请特别注意网页元素的大小、文本内容、位置布局和颜色等方面,确保最终的布局和原网页高度相似。完成后,请直接提供新修订的HTML文件内容,无需附加任何解释。 LLM 通过设计生成代码未来重点和研究方向: ◆为多模态大语言模型开发更有效的提示技巧,尤其是在处理复杂网页设计时,例如通过分步骤生成网页的不同部分。

封面图片

一个强大的无代码网站生成和编辑器,可以用自然语言生成、定制和部署网站,可以通过一行文本创建可完全编辑的华丽网站。

一个强大的无代码网站生成和编辑器,可以用自然语言生成、定制和部署网站,可以通过一行文本创建可完全编辑的华丽网站。 此外,Dora Al还提供先进的AI动画功能,可以自动化动画制作过程,节省大量时间。 | #编辑器 #工具

封面图片

:一个开源的零依赖库,可使用单一API调用30多种LLM,可以在单个响应中发送多个提示到多个LLM,并将结果返回。

:一个开源的零依赖库,可使用单一API调用30多种LLM,可以在单个响应中发送多个提示到多个LLM,并将结果返回。 llm.ts支持各种不同的LLM,包括文本生成、代码生成、知识库和对话模型等。llm.ts可以在Node、Deno和浏览器等任何地方使用,用户需要自己提供API密钥

封面图片

Stability AI正式发布了他们从文字生成动画的工具Stable Animation,感觉效果和能力类似于Gen-1,主要

Stability AI正式发布了他们从文字生成动画的工具Stable Animation,感觉效果和能力类似于Gen-1,主要包括下面三种能力: 文本到动画:用户输入文本提示(与 Stable Diffusion 一样)并调整各种参数以生成动画。 文本输入+初始图像输入:用户提供初始图像作为动画的起点。文本提示与图像结合使用以产生最终输出动画。 输入视频 + 文本输入:用户提供初始视频作为动画的基础。通过调整各种参数,获得了最终的输出动画,该动画还由文本提示引导。

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人