MovieLLM: 用AI合成电影数据用来训练AI对长视频理解

MovieLLM:用AI合成电影数据用来训练AI对长视频理解MovieLLM是由复旦大学和腾讯PCG的研究人员共同开发的一个新颖框架，能够从简单的文本提示中生成高质量、电影级别的视频数据。MovieLLM能仅仅通过一个词或一个句子就能创作出一部完整的电影。MovieLLM旨在为长视频创建合成的高质量数据。这个框架结合了GPT-4和文本到图像的模型，以生成详细的剧本和相应的视觉内容。通俗来讲就是：MovieLLM通过合成电影数据为人工智能模型提供训练材料，使它们能够更好地理解和生成长视频内容。#框架

在Telegram中查看

相关推荐

Hugging Face 开源“世界最大”AI 训练合成数据集 Cosmopedia

HuggingFace开源“世界最大”AI训练合成数据集CosmopediaHuggingFace近日开源了一款名为“Cosmopedia”的 AI 训练数据集，号称是目前世界上最大的合成数据集。该数据集内容均由Mixtral7b模型汇总生成，其中包含大量教科书、博客文章、故事小说、WikiHow教程，共计250亿个Token。HuggingFace表示，这次开源的数据集为0.1版本，未来团队还将持续更新该数据集，推进业界 AI 训练发展。项目地址：消息来源：线索：@ZaiHuabot投稿：@TNSubmbot频道：@TestFlightCN

专注于快速生成高质量结构化表格数据的框架，支持许多单表和多表数据合成算法，可实现高达120倍的性能提升，并支持差分隐私和其他方法

专注于快速生成高质量结构化表格数据的框架，支持许多单表和多表数据合成算法，可实现高达120倍的性能提升，并支持差分隐私和其他方法以增强合成数据的安全性。合成数据是机器根据真实数据和算法生成的，它不包含敏感信息，但可以保留真实数据的特征。合成数据与真实数据之间不存在对应关系，并且不受GDPR和ADPPA等隐私法规的约束。实际应用中，无需担心隐私泄露的风险。高质量的合成数据还可以应用于数据开放、模型训练与调试、系统开发与测试等各个领域。特点高性能：支持多种统计数据合成算法，实现高达120倍的性能提升，无需GPU设备；针对大数据场景进行优化，有效降低内存消耗；持续跟踪学术界和工业界的最新进展，及时推出对优秀算法和模型的支持；通过torch等框架为深度学习模型提供分布式训练支持。隐私增强功能：SDG支持差分隐私、匿名化等方法来增强合成数据的安全性。易于扩展：支持以插件包的形式扩展模型、数据处理、数据连接器等#框架

英伟达开源Nemotron-4 340B 可用合成数据训出特定开源通用模型

英伟达开源Nemotron-4340B可用合成数据训出特定开源通用模型英伟达发布全新开源模型Nemotron-4340B，有可能彻底改变训练LLM的方式——或许以后各行各业都不再需要昂贵的真实世界数据集了。根据英伟达官方发文，Nemotron-4340B包括基础模型Base、指令模型Instruct和奖励模型Reward，并构建了一个高质量合成数据生成的完整流程。模型支持4K上下文窗口、50多种自然语言和40多种编程语言。训练数据方面，英伟达采用了高达9万亿个token。其中，8万亿用于预训练，1万亿用于继续训练以提高质量。Nemotron-4340B指令模型可以帮助开发者生成合成训练数据。这些多样化的合成数据，模仿了真实世界的数据特征，因而数据质量明显提升，从而提升了各领域定制LLM的性能和稳定性。而且，为了进一步提高AI生成数据的质量，开发者还可以用Nemotron-4340B奖励模型，来筛选高质量的响应。此外，为了提高模型质量，开发者可以使用NeMoAligner和由Nemotron-4340B奖励模型标注的数据集来对齐模型。根据大模型竞技场LMSYS的消息，Nemotron-4340B已直接超越了Mixtral8x22B、Claudesonnet、Llama370B、Qwen2。关注频道@ZaiHuaPd频道爆料@ZaiHuabot

科技巨头狂撒千亿美元 “买照片” 只为训练AI模型？

科技巨头狂撒千亿美元“买照片”只为训练AI模型？不只是Photobucket，Reddit、Youtube等知名网站都成了科技巨头们的疯抢目标。苹果为训练AI买图片，网友担忧隐私Photobucket是一个提供影像寄存、视频寄存、幻灯片制作与照片分享服务网站，成立于2003年。在当时，用户把这个网站当作个人相册，与功能与现在流行的在线相册非常相似。在巅峰期，该网站曾拥有7000万用户。而到2007年，Photobucket就声称已有超过28亿张图像上传到其网站。不过随着越来越多的功能更强大的在线相册App出现之后，这种网站式的在线相册也逐渐失去了热度。不过毕竟是一家成立二十多年的网站，别的不说，数据是真的多，130亿张图片与视频，足够AI模型消化很久。据悉，苹果购买的图片的主要目的就是提高生成式AI的水平。除此之外，苹果公司在早些时候与另一家图片素材网站Shutterstock达成了数百万张图片的授权协议，据悉这笔交易的价值在2500万美元到5000万美元之间。随着今年6月份WWDC大会日益临近，每个人都在期待苹果公司能带来“令人惊叹”的AI功能。但和上笔交易不同，不少网友开始为了隐私担心。有人评论表示，Photobucket的图片来源都是基于网友的“托管，这就意外着这些图片虽然已经是陈年老图，但仍属于用户的个人秘密。而Shutterstock的数据大多是免版税的图片、矢量图和插图库，包括影片剪辑以及音乐曲目，本身就可以授权给用户使用。这么一对比，网友对于Photobucket的数据隐私安全问题也可以理解了。除了涉及隐私以外，不少网友还对这些库存照片的质量提出了质疑。如果给AI喂食这些本来就带有错误的图片，那么是否会生成质量更低的图片呢？总之，就苹果购买Photobucket图片的行为，大多数网友并不赞同。但即使冒着泄露隐私的风险，苹果和其他公司们还是得“铤而走险”搞来这些数据。主要原因还是高质量的互联网数据，可能没几年就要耗尽了。其实早在多年前，各大科技巨头就已经碰到训练语料缺失的瓶颈。据《纽约时报》报道，OpenAI在训练GPT-4时，就曾遇到英文文本资料缺失的情况。为了处理这个问题，OpenAI推出一款名为Whisper语音识别工具，用来转录Google旗下视频平台Youtube的视频音频，生成大量的对话文本。据报道称，这款工具以开源的名义转录了超过一百万小时的Youtube视频，实际上已经违反了Youtube的隐私规则，而这些资料也成为ChatGPT的基础。这并不是OpenAI第一次因为偷扒数据犯错。包括《纽约时报》在内，多家数字新闻媒体对OpenAI提起版权侵权诉讼，认为他们的数千篇报道被OpenAI用来训练ChatGPT。当然，通过“爬虫”等手段搜刮训练数据的科技公司不止OpenAI这一家，“受害者”Google也曾通过修改服务条款的方式，将“使用公开信息训练AI模型”偷偷写进隐私细则中，从而允许工程师们利用公开的文档、在线资料等开发AI产品。不过随着OpenAI在版权问题上越陷越深，其他科技巨头也只能乖乖掏钱为训练数据付费。至少比起互联网上免费抓取的数据，Photobucket近130亿的数据量还是相对来说质量更高点。花钱买数据，或许还不够可怕的是，即便是130亿的数据量，也可能喂不饱现在的AI的模型。研究机构Epoch直白地表示，现在科技公司使用数据的速度已经超过数据生产的速度，这些公司最快会在2026年就耗尽互联网上的高质量数据。有数据统计，在2020年11月发布的GPT-3上，使用了3000亿个Token的训练数据。而到了2024年，GooglePaLM2的训练数据量则达到3.6万亿个Token。数据量是一回事，数据的质量更是直接影响AI大模型的生成能力。正如网友所担忧的那样，低质量的数据甚至可能让AI陷入不可逆转的方向。面对这样的问题，OpenAI开始尝试使用合成数据（AI生成的数据）来训练AI。这样既可以减少对受版权保护数据的依赖，同时也能训练出更强大的结果。对此OpenAI和一系列机构开始研究使用两个不同的模型来生成更有用、更可靠的合成数据，其中一个模型用来生成数据，另一个则用来对生成的数据进行审核。不只是OpenAI，英伟达很早就在用合成数据弥补现实世界的数据。在2021年11月，英伟达对外推出合成数据生成引擎OmniverseReplicator。英伟达将其描述为“用于生成具有基本事实的合成数据以训练AI网络的引擎”，其作用就是用来训练AI。此产品推出后，由该引擎生成的合成数据在自动驾驶、机器人等多个场景里都得到了验证，因此英伟达也在近些年希望将其推广到更多领域，包括聊天机器人。然而，合成数据在工业场景里的成功案例，并不代表在其他领域都能遵循物理规律。有时候AI连真实图片都无法理解，更不要说理解二次生成的图片了。...PC版：https://www.cnbeta.com.tw/articles/soft/1426842.htm手机版：https://m.cnbeta.com.tw/view/1426842.htm

BuboGPT：可以理解图像和音频的内容，并将这些理解与文本输入和输出相结合。

：可以理解图像和音频的内容，并将这些理解与文本输入和输出相结合。BuboGPT是由字节跳动开发的大型语言模型，能够处理多模态输入，包括文本、图像和音频，并具有将其响应与视觉对象相对应的独特能力。它可以进行细粒度的视觉理解，音频理解，以及对齐的音频-图像理解和任意音频-图像理解。BuboGPT的架构是通过学习一个共享的语义空间并进一步探索不同视觉对象和不同模态之间的细粒度关系，从而实现了包括图像、音频和文本在内的多模态理解。它的训练过程包括两个阶段：单模态预训练和多模态指令调整。在单模态预训练阶段，对应的模态Q-Former和线性投影层在大量的模态-文本配对数据上进行训练。在多模态指令调整阶段，使用高质量的多模态指令跟踪数据集对线性投影层进行微调。当你给它一个图像和一段描述图像的文本时，BuboGPT能够理解文本和图像之间的关系，并生成一个与图像内容相对应的响应。这种能力使得BuboGPT可以在对话中提供更丰富、更具上下文的回答。音频理解能力：当你给它一个音频剪辑时，它可以生成一个详细的描述，涵盖音频中的所有声音部分，甚至包括一些人类可能无法注意到的短暂音频片段。BuboGPT还可以处理匹配的音频-图像对，进行声音定位。例如，如果你给它一个场景的图片和场景中发生的声音，它可以理解声音和图像之间的关系，并生成一个描述声音来源位置的响应。即使音频和图像之间没有直接的关系。在这种情况下，BuboGPT可以生成一个高质量的响应，描述音频和图像之间的可能关系。

Genie：一种新的生成式交互环境模型，能通过无监督学习，用未标注的互联网视频数据训练而成。

：一种新的生成式交互环境模型，能通过无监督学习，用未标注的互联网视频数据训练而成。Genie具有11B参数，能将文本、合成图像、照片甚至手绘草图转换为可交互的虚拟世界。这一模型打破了传统世界模型需要特定领域数据和动作标签的局限，通过学习潜动作空间，实现了对生成环境的逐帧控制。研究表明，Genie不仅能够创造多样的互动体验，还能够训练未来的通用智能体，通过对未见过的视频进行模仿学习，预示着人工智能领域迈向开放式学习和创造无限数据的新时代。

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人