MovieLLM: 用AI合成电影数据 用来训练AI对长视频理解

MovieLLM: 用AI合成电影数据 用来训练AI对长视频理解 MovieLLM 是由复旦大学和腾讯PCG的研究人员共同开发的一个新颖框架,能够从简单的文本提示中生成高质量、电影级别的视频数据。MovieLLM 能仅仅通过一个词或一个句子就能创作出一部完整的电影。 MovieLLM 旨在为长视频创建合成的高质量数据。这个框架结合了GPT-4和文本到图像的模型,以生成详细的剧本和相应的视觉内容。 通俗来讲就是:MovieLLM 通过合成电影数据为人工智能模型提供训练材料,使它们能够更好地理解和生成长视频内容。 ||| #框架

相关推荐

封面图片

专注于快速生成高质量结构化表格数据的框架,支持许多单表和多表数据合成算法,可实现高达120倍的性能提升,并支持差分隐私和其他方法

专注于快速生成高质量结构化表格数据的框架,支持许多单表和多表数据合成算法,可实现高达120倍的性能提升,并支持差分隐私和其他方法以增强合成数据的安全性。 合成数据是机器根据真实数据和算法生成的,它不包含敏感信息,但可以保留真实数据的特征。合成数据与真实数据之间不存在对应关系,并且不受 GDPR 和 ADPPA 等隐私法规的约束。实际应用中,无需担心隐私泄露的风险。高质量的合成数据还可以应用于数据开放、模型训练与调试、系统开发与测试等各个领域。 特点 高性能:支持多种统计数据合成算法,实现高达120倍的性能提升,无需GPU设备;针对大数据场景进行优化,有效降低内存消耗;持续跟踪学术界和工业界的最新进展,及时推出对优秀算法和模型的支持;通过torch等框架为深度学习模型提供分布式训练支持。 隐私增强功能:SDG支持差分隐私、匿名化等方法来增强合成数据的安全性。 易于扩展:支持以插件包的形式扩展模型、数据处理、数据连接器等 | #框架

封面图片

微软、OpenAI等公司已使用合成数据来训练AI模型

微软、OpenAI等公司已使用合成数据来训练AI模型 金十数据7月20日讯,人工智能初创公司Cohere首席执行官AidenGomez表示,由于Reddit、推特等公司的数据采集要价太高,微软、OpenAI和Cohere等公司,已使用合成数据来训练AI模型。Gomez表示,合成数据可以适用于很多训练场景,只是目前尚未全面推广。 来源:https://flash.jin10.com/detail/20230720104640322100 via 匿名 标签: #AI 频道: @GodlyNews1 投稿: @GodlyNewsBot

封面图片

:一种新的生成式交互环境模型,能通过无监督学习,用未标注的互联网视频数据训练而成。

:一种新的生成式交互环境模型,能通过无监督学习,用未标注的互联网视频数据训练而成。 Genie具有11B参数,能将文本、合成图像、照片甚至手绘草图转换为可交互的虚拟世界。这一模型打破了传统世界模型需要特定领域数据和动作标签的局限,通过学习潜动作空间,实现了对生成环境的逐帧控制。 研究表明,Genie不仅能够创造多样的互动体验,还能够训练未来的通用智能体,通过对未见过的视频进行模仿学习,预示着人工智能领域迈向开放式学习和创造无限数据的新时代。

封面图片

基于GPT-2用25万条Midjourney的promps训练出来的小模型,可以生成高质量的Midjourneyprompt。其

基于GPT-2用25万条Midjourney的promps训练出来的小模型,可以生成高质量的Midjourneyprompt。其中包含用户在一个月内向Midjourney文本到图像服务发出的 250k 文本提示。 此提示生成器可用于自动完成任何文本到图像模型(包括 DALL·E 系列)的提示

封面图片

科技巨头狂撒千亿美元 “买照片” 只为训练AI模型?

科技巨头狂撒千亿美元 “买照片” 只为训练AI模型? 不只是Photobucket,Reddit、Youtube等知名网站都成了科技巨头们的疯抢目标。苹果为训练AI买图片,网友担忧隐私Photobucket是一个提供影像寄存、视频寄存、幻灯片制作与照片分享服务网站,成立于2003年。在当时,用户把这个网站当作个人相册,与功能与现在流行的在线相册非常相似。在巅峰期,该网站曾拥有7000万用户。而到2007年,Photobucket就声称已有超过28亿张图像上传到其网站。不过随着越来越多的功能更强大的在线相册App出现之后,这种网站式的在线相册也逐渐失去了热度。不过毕竟是一家成立二十多年的网站,别的不说,数据是真的多,130亿张图片与视频,足够AI模型消化很久。据悉,苹果购买的图片的主要目的就是提高生成式AI的水平。除此之外,苹果公司在早些时候与另一家图片素材网站Shutterstock达成了数百万张图片的授权协议,据悉这笔交易的价值在2500万美元到5000万美元之间。随着 今年6月份WWDC大会日益临近,每个人都在期待苹果公司能带来“令人惊叹”的AI功能。但和上笔交易不同,不少网友开始为了隐私担心。有人评论表示,Photobucket的图片来源都是基于网友的“托管,这就意外着这些图片虽然已经是陈年老图,但仍属于用户的个人秘密。而Shutterstock的数据大多是免版税的图片、矢量图和插图库,包括影片剪辑以及音乐曲目,本身就可以授权给用户使用。这么一对比,网友对于Photobucket的数据隐私安全问题也可以理解了。除了涉及隐私以外,不少网友还对这些库存照片的质量提出了质疑。如果给AI喂食这些本来就带有错误的图片,那么是否会生成质量更低的图片呢?总之,就苹果购买Photobucket图片的行为,大多数网友并不赞同。但即使冒着泄露隐私的风险,苹果和其他公司们还是得“铤而走险”搞来这些数据。主要原因还是高质量的互联网数据,可能没几年就要耗尽了。其实早在多年前,各大科技巨头就已经碰到训练语料缺失的瓶颈。据《纽约时报》报道,OpenAI在训练GPT-4时,就曾遇到英文文本资料缺失的情况。为了处理这个问题,OpenAI推出一款名为Whisper语音识别工具,用来转录Google旗下视频平台Youtube的视频音频,生成大量的对话文本。据报道称,这款工具以开源的名义转录了超过一百万小时的Youtube视频,实际上已经违反了Youtube的隐私规则,而这些资料也成为ChatGPT的基础。这并不是OpenAI第一次因为偷扒数据犯错。包括《纽约时报》在内,多家数字新闻媒体对OpenAI提起版权侵权诉讼,认为他们的数千篇报道被OpenAI用来训练ChatGPT。当然,通过“爬虫”等手段搜刮训练数据的科技公司不止OpenAI这一家,“受害者”Google也曾通过修改服务条款的方式,将“使用公开信息训练AI模型”偷偷写进隐私细则中,从而允许工程师们利用公开的文档、在线资料等开发AI产品。不过随着OpenAI在版权问题上越陷越深,其他科技巨头也只能乖乖掏钱为训练数据付费。至少比起互联网上免费抓取的数据,Photobucket近130亿的数据量还是相对来说质量更高点。花钱买数据,或许还不够可怕的是,即便是130亿的数据量,也可能喂不饱现在的AI的模型。研究机构Epoch直白地表示,现在科技公司使用数据的速度已经超过数据生产的速度,这些公司最快会在2026年就耗尽互联网上的高质量数据。有数据统计,在2020年11月发布的GPT-3上,使用了3000亿个Token的训练数据。而到了2024年,GooglePaLM 2的训练数据量则达到3.6万亿个Token。数据量是一回事,数据的质量更是直接影响AI大模型的生成能力。正如网友所担忧的那样,低质量的数据甚至可能让AI陷入不可逆转的方向。面对这样的问题,OpenAI开始尝试使用合成数据(AI生成的数据)来训练AI。这样既可以减少对受版权保护数据的依赖,同时也能训练出更强大的结果。对此OpenAI和一系列机构开始研究使用两个不同的模型来生成更有用、更可靠的合成数据,其中一个模型用来生成数据,另一个则用来对生成的数据进行审核。不只是OpenAI,英伟达很早就在用合成数据弥补现实世界的数据。在2021年11月,英伟达对外推出合成数据生成引擎Omniverse Replicator 。英伟达将其描述为“用于生成具有基本事实的合成数据以训练 AI 网络的引擎”,其作用就是用来训练AI。此产品推出后,由该引擎生成的合成数据在自动驾驶、机器人等多个场景里都得到了验证,因此英伟达也在近些年希望将其推广到更多领域,包括聊天机器人。然而,合成数据在工业场景里的成功案例,并不代表在其他领域都能遵循物理规律。有时候AI连真实图片都无法理解,更不要说理解二次生成的图片了。 ... PC版: 手机版:

封面图片

研究表明用AI产生的语料来训练AI将使其退化并最终崩溃

研究表明用AI产生的语料来训练AI将使其退化并最终崩溃 现在,随着越来越多的人使用 AI 来制作和发布内容,一个明显的问题出现了:当 AI 生成的内容在互联网上激增并且 AI 模型开始用其进行训练,而不是使用主要人类生成的内容时,会发生什么? 来自英国和加拿大的一组研究人员已经研究了这个问题,并且最近在开放获取期刊 arXiv 上发表了一篇关于他们工作的论文。他们的发现令当前的生成式 AI 技术及其未来令人担忧:“我们发现在训练中使用模型生成的内容会导致生成的模型出现不可逆转的缺陷。” 研究人员专门研究了文本到文本和图像到图像 AI 生成模型的概率分布,得出结论:“从其他模型生成的数据中学习会导致模型崩溃一个退化过程,随着时间的推移,模​​型会忘记真正的底层数据分布……这个过程是不可避免的,即使对于具有近乎理想的长期学习条件的情况也是如此。” “随着时间的推移,生成数据中的错误会复合并最终迫使从生成数据中学习的模型进一步错误地感知现实,”该论文的主要作者之一 Ilia Shumailov 在给 VentureBeat 的电子邮件中写道。“我们惊讶地观察到模型崩溃发生的速度有多快:模型可以迅速忘记他们最初从中学习的大部分原始数据。” 换句话说:当 AI 训练模型接触到更多 AI 生成的数据时,它的性能会随着时间的推移而变差,在其生成的响应和内容中产生更多错误,并在其响应中产生更少的非错误多样性。 额外编辑:研究人员同样担忧,目前互联网上AI生成内容正在迅速增加,训练下一代ai的数据正在被迅速污染。

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人