Meta 发布了一个可以利用 AI 自动剪辑视频的 Agents LAVE。

Meta 发布了一个可以利用 AI 自动剪辑视频的 Agents LAVE。 这玩意再加上 Sora 这样的视频生成模型,一些简单的短视频以及广告视频基本上就不需要人工介入了,大家以后刷的估计都是生成出来的视频了,想要啥有啥。 我下面会简单介绍一下这个剪辑工具的界面组成和 Agents 设计: -工具界面及交互(图 1)- A 区域主要是输入提示词以及展示 LLM 详细的剪辑逻辑。 B 区域是素材库,你可以鼠标 Hover 后获得 LLM 帮你总结的这段视频的内容,不需要播放查看, AI 也会自动生成的素材标题。 E 区域就是传统的视频时间轴,AI 剪辑的视频就在这里,你也可以手动调整。 -Agents 设计(图 2)- 1⃣系统提示前言: 角色分配:一个开场段指示Agents担任视频编辑助理,负责根据用户命令生成行动计划。 动作描述:在角色分配之后,描述了Agents可以执行的一系列动作。每个动作对应于LAVE支持的编辑功能。详细说明了每个动作的功能和用例,帮助Agents选择适当的响应以满足用户的命令。 格式指导:最后,指导Agents以一致的格式输出行动计划:首先确定用户的编辑目标,然后列出逐步计划,列举建议的行动以实现该目标。 其他系统提示: 在前言之后,附加了最近的对话历史,以及最新的用户输入。这种组合形成了发送给LLM以生成行动计划的完整提示。 2⃣制定行动计划后,将其提交给用户进行批准: 与批量批准不同,每个行动都由用户依次批准。这种方法允许用户执行一个行动,观察其结果,然后决定是否继续进行下一个行动。LAVE从行动计划中解析每个行动描述,并将其转化为相应的后端函数调用。 3⃣LAVE支持五种LLM功能: 1)素材概览,2)创意头脑风暴,3)视频检索,4)故事板,5)剪辑修剪。前四种功能可通过Agents访问,而剪辑修剪可通过双击编辑时间轴上的剪辑时出现的窗口进行。 其中,基于语言的视频检索是通过向量存储数据库实现的,而其余功能则是通过LLM提示工程实现的。所有功能都是基于自动生成的语言构建的。

相关推荐

封面图片

苹果发布了一个可以利用LLM 生成动画的框架Keyframer。

苹果发布了一个可以利用LLM 生成动画的框架Keyframer。 Keyframer允许用户通过自然语言提示来创建静态2D图像的动画。 它使用GPT-4生成CSS动画代码,支持用户通过多种编辑器类型直接编辑生成的动画。 用户可以通过顺序提示和请求LLM生成的设计变体来迭代他们的设计。 论文链接:

封面图片

生成视觉叙述:以每秒一帧的速率对视频帧进行采样。然后使用建立在Vicuna-V1-13B 的LLaMA-V1-13B模型 的fi

生成视觉叙述:以每秒一帧的速率对视频帧进行采样。然后使用建立在Vicuna-V1-13B 的LLaMA-V1-13B模型 的fine-tuned检查点LLaVA v1.0对每帧进行标题标注。 检索功能利用向量存储:通过使用OpenAI的text-embedding-ada-002将每个视频的视觉叙述(标题和摘要)进行嵌入。 将视频整合成共同的主题:提供用户视频收藏中主题的摘要。提示包括一个功能指令,然后是画廊视频的视觉叙述。然后将此提示发送到LLM以生成概览,随后在聊天界面中呈现给用户进行审阅。 基于用户的所有视频进行视频编辑创意:提示结构以功能指令开头。如果提供了创意指导,会在提示中包含用户的创意指导,以引导头脑风暴。 根据用户提供的叙述在序列中剪辑视频片段:与以前的功能不同,它只影响时间轴上的视频。与头脑风暴类似,系统会检查用户提供的叙述中是否有任何创意指导。 4⃣LAVE应用构建: LAVE系统实现为全栈Web应用程序。前端UI采用React.js开发,而后端服务器采用Flask。对于LLM推理,主要使用OpenAI的最新GPT-4模型。然而,为了将行动计划映射到功能,使用了gpt-4-0613检查点,专门针对函数调用的使用进行了微调。 论文地址:

封面图片

Adobe Premiere Pro 获得 AI 工具来添加和删除视频中的对象、扩展剪辑等

Adobe Premiere Pro 获得 AI 工具来添加和删除视频中的对象、扩展剪辑等 Adobe 今日(15日)推出了专为专业视频编辑而设计的软件 Premiere Pro 的几项新 AI 功能。Adobe Premiere Pro 将获得由生成式 AI 提供支持的实用编辑功能,这将使视频编辑人员能够更高效地完成工作。借助生成扩展功能,Premiere Pro 将能够添加帧以延长视频剪辑,从而通过扩展场景实现适当时间的编辑和平滑的过渡。还可以通过智能选择和跟踪工具添加或删除视频中的对象。Adobe 表示,视频编辑器可以删除不需要的物品、更换演员的服装,或添加布景,例如墙上的绘画或桌子上的植物。最有趣的新功能也许是使用文本转视频功能直接在 Premiere Pro 中创建新视频片段的选项。用户将能够在提示中输入文本或上传图像来创建视频,生成的剪辑可用于 B-roll、创建故事板等。Adobe 计划在2024年晚些时候推出这些生成式 AI 工具。 、

封面图片

Meta发布AI广告新功能 可以自动生成各种图文

Meta发布AI广告新功能 可以自动生成各种图文 Meta商业化业务负责人约翰·海格曼(John Hegeman)表示,公司还在研究如何对生成的广告进行标记,并会在新工具在全球范围内上线时公布指导方针,时间可能在今年年底左右。在宣布这一消息时,Meta正投入上百亿美元开发和支持生成式人工智能模型,同时试图说服广告商,通过自动化广告活动创意方面的工作,他们可以获得更大回报。今年2月份,数字广告巨头谷歌宣布了类似的人工智能广告工具计划。谷歌表示,公司人工智能工具制作的广告将使用旗下人工智能研究实验室DeepMind开发的SynthID水印技术进行标记。有了Meta的图像生成工具,广告商可以上传产品照片并生成各种相关图像,比如可以调整产品的摆放角度或向人们展示如何在不同环境下使用它们。新工具还增加了可以生成图像标题和产品关键卖点的文本生成功能,同时还能将文本直接加到自动生成的图像上。Meta表示,将在未来几个月增加一个功能,可以让广告商通过输入文本提示来定制各种图像。广告商纷纷接纳可以自动针对不同用户群体投放不同内容的人工智能广告工具,但对较新的生成式人工智能工具则表现出更多犹豫。比如一些品牌对科技公司如何使用自己上传的图像来改进模型持保留态度,担心品牌标志或其他知识产权可能会出现在别人生成的图像中。 ... PC版: 手机版:

封面图片

安全研究人员证明可以利用聊天机器人系统传播AI驱动的蠕虫病毒

安全研究人员证明可以利用聊天机器人系统传播AI驱动的蠕虫病毒 更糟糕的是,生成式人工智能(GenAI)系统,甚至像巴德(Bard)等大型语言模型(LLM),都需要大量的处理,因此它们通常通过向云端发送提示来工作。这种做法会带来一系列其他的隐私问题,并为恶意行为者提供新的攻击载体。ComPromptMized 公司的信息安全研究人员最近发表了一篇论文,展示了他们如何创建"零点击"蠕虫,从而"毒害"由 Gemini (Bard) 或 GPT-4 (Bing/Copilot/ChatGPT) 等引擎驱动的 LLM 生态系统。蠕虫病毒是一组计算机指令,除了打开受感染的电子邮件或插入U盘外,用户几乎不需要采取任何行动,就能隐蔽地感染多个系统。任何 GenAI 供应商都没有防范措施来阻止此类感染。不过,将这种病毒引入 LLM 数据库则比较棘手。研究人员想知道"攻击者能否开发恶意软件,利用代理的 GenAI 组件,对整个 GenAI 生态系统发动网络攻击?"简短的回答是肯定的。ComPromptMized 创建了一个蠕虫病毒,他们称之为莫里斯二世(Morris the Second,简称 Morris II)。莫里斯二号使用通俗易懂的"对抗性自我复制提示",诱骗聊天机器人在用户之间传播蠕虫病毒,即使他们使用不同的 LLM。"这项研究表明,攻击者可以在输入中插入此类提示,当 GenAI 模型处理这些输入时,会促使模型将输入复制为输出(复制),并从事恶意活动(有效载荷),"研究人员解释说。"此外,这些输入还能利用 GenAI 生态系统内的连通性,迫使代理将其传递(传播)给新的代理"。为了验证这一理论,研究人员创建了一个孤立的电子邮件服务器,用于"攻击"由 Gemini Pro、ChatGPT 4 和开源 LLM LLaVA 支持的 GenAI 助手。然后,ComPromptMized 使用了包含基于文本的自我复制提示和嵌入相同提示的图片的电子邮件。这些提示利用了人工智能助手对检索增强生成(RAG)的依赖,也就是从本地数据库之外获取信息的方式。例如,当用户询问"Bard"阅读或回复受感染的电子邮件时,它的 RAG 系统就会将内容发送给Gemini专业版,以便做出回复。然后,Morris II 复制到 Gemini 上,并执行蠕虫的有效载荷,包括数据外渗。这项研究的合著者本-纳西博士说:"生成的包含敏感用户数据的响应被用于回复发送给新客户的电子邮件时,会感染新的主机,然后存储在新客户的数据库中。"不仅如此,基于图像的变种可能更加难以捉摸,因为提示是不可见的。黑客可以将其添加到看似无害或预期的电子邮件中,如伪造的时事通讯。然后,蠕虫就可以利用助手向用户联系人列表中的每个人发送垃圾邮件,汲取数据并将其发送到 C&C 服务器。纳西说:"通过将自我复制提示编码到图片中,任何包含垃圾邮件、滥用材料甚至宣传内容的图片都可以在最初的电子邮件发送后被进一步转发给新客户。"他们还可以从邮件中提取敏感数据,包括姓名、电话号码、信用卡号、社会保险号或"任何被视为机密的数据"。ComPromptMized 在发布其工作之前通知了Google、Open AI 等公司。如果说 ComPromptMized 的研究表明了什么的话,那就是大科技公司可能需要放慢脚步,放远目光,以免我们在使用他们所谓和善的聊天机器人时,需要担心新的人工智能驱动的蠕虫和病毒。 ... PC版: 手机版:

封面图片

Hugging Face 重磅推出 Transformers Agents!

Hugging Face 重磅推出 Transformers Agents! 让所有人都可以轻松使用 OpenAssistant、StarCoder、OpenAI 等大语言模型,快速创建一个 AI 智能代理。 该代理可接受复杂的查询信息,通过对话的方式,实现文字生成图像、网站摘要朗读、PDF 总结等等功能。 具体实现可围绕一系列提示词进行构建,流程如下: - 明确告知代理的主要任务; - 给代理一个工具; - 向代理展示示例; - 分配任务,让代理通过思维连推理与理解任务,并输出 Python 代码。 目前,该代理已内置多款实用工具,其中包括: - 文档问答功能; - 语音转文本、文本转语音; - 文本功能(分类、摘要、翻译、下载、问答); - 图像功能(生成、转换、字幕、分割、放大、问答); - 基于文本直接生成视频,扩展性强。 |

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人