研究表明用AI产生的语料来训练AI将使其退化并最终崩溃

研究表明用AI产生的语料来训练AI将使其退化并最终崩溃现在，随着越来越多的人使用 AI 来制作和发布内容，一个明显的问题出现了：当 AI 生成的内容在互联网上激增并且 AI 模型开始用其进行训练，而不是使用主要人类生成的内容时，会发生什么？来自英国和加拿大的一组研究人员已经研究了这个问题，并且最近在开放获取期刊 arXiv 上发表了一篇关于他们工作的论文。他们的发现令当前的生成式 AI 技术及其未来令人担忧：“我们发现在训练中使用模型生成的内容会导致生成的模型出现不可逆转的缺陷。” 研究人员专门研究了文本到文本和图像到图像 AI 生成模型的概率分布，得出结论：“从其他模型生成的数据中学习会导致模型崩溃一个退化过程，随着时间的推移，模型会忘记真正的底层数据分布……这个过程是不可避免的，即使对于具有近乎理想的长期学习条件的情况也是如此。” “随着时间的推移，生成数据中的错误会复合并最终迫使从生成数据中学习的模型进一步错误地感知现实，”该论文的主要作者之一 Ilia Shumailov 在给 VentureBeat 的电子邮件中写道。“我们惊讶地观察到模型崩溃发生的速度有多快：模型可以迅速忘记他们最初从中学习的大部分原始数据。” 换句话说：当 AI 训练模型接触到更多 AI 生成的数据时，它的性能会随着时间的推移而变差，在其生成的响应和内容中产生更多错误，并在其响应中产生更少的非错误多样性。额外编辑：研究人员同样担忧，目前互联网上AI生成内容正在迅速增加，训练下一代ai的数据正在被迅速污染。

在Telegram中查看

相关推荐

人工智能对人工智能生成的内容进行训练将导致人工智能崩溃

人工智能对人工智能生成的内容进行训练将导致人工智能崩溃用于训练大型语言模型的数据最初来自人类来源，如书籍、文章、照片等，这些都是在没有人工智能的帮助下创建的。但随着越来越多的人使用人工智能来制作和发布内容，一个明显的问题出现了：当人工智能生成的内容在互联网上扩散时，人工智能模型开始对其进行训练。研究人员发现，“在训练中使用模型生成的内容会导致所产生的模型出现不可逆转的缺陷。”他们研究了文本到文本和图像到图像的人工智能生成模型的概率分布，得出结论：“从其他模型产生的数据中学习会导致模型崩溃这是一个退化的过程，并且随着时间的推移，模型会忘记真正的基础数据分布。”他们观察到模型崩溃发生得如此之快：模型可以迅速忘记它们最初学习的大部分原始数据。这导致它们随着时间的推移，表现越来越差，错误越来越多。来源，来自：雷锋频道：@kejiqu 群组：@kejiquchat 投稿：@kejiqubot

MovieLLM: 用AI合成电影数据用来训练AI对长视频理解

MovieLLM: 用AI合成电影数据用来训练AI对长视频理解 MovieLLM 是由复旦大学和腾讯PCG的研究人员共同开发的一个新颖框架，能够从简单的文本提示中生成高质量、电影级别的视频数据。MovieLLM 能仅仅通过一个词或一个句子就能创作出一部完整的电影。 MovieLLM 旨在为长视频创建合成的高质量数据。这个框架结合了GPT-4和文本到图像的模型，以生成详细的剧本和相应的视觉内容。通俗来讲就是：MovieLLM 通过合成电影数据为人工智能模型提供训练材料，使它们能够更好地理解和生成长视频内容。 ||| #框架

AI产业的灰暗面：OpenAI、谷歌、Meta如何获取训练语料

AI产业的灰暗面：OpenAI、谷歌、Meta如何获取训练语料《纽约时报》在本周末刊发的调查报道中，揭露了OpenAI、Google、Meta等公司为了获取训练语料所采取的一些“走捷径”措施，同时也展现了整个行业迫在眉睫的困境。美国科技巨头各走“捷径”2021年末，正在训练GPT-4的OpenAI遇到了一个棘手的问题，公司已经耗尽了互联网上所有可靠的英文文本资源，而他们需要更多、更大规模的数据来训练更强大的模型。为了处理这个问题，OpenAI的Whisper语音识别工具诞生了用来转录Google旗下视频平台Youtube的视频音频，生成大量的对话文本。报道称，包括OpenAI总裁布洛克曼在内的团队总共转录了超过一百万小时的Youtube视频。随后这些资料被输入到GPT-4系统中，并成为聊天机器人ChatGPT的基础。根据Google的政策，禁止用户将平台上的视频用于“独立”应用，同时禁止通过任何自动化手段（爬虫等）访问其视频。有趣的是，在OpenAI偷偷扒Youtube视频时，Google也在转录自家流媒体平台的内容训练大模型同样冒着侵犯版权的风险。正因如此，虽然有Google员工知道OpenAI在这么干，也没有出手阻止。因为一旦Google对OpenAI提出抗议，也有可能“引火烧身”到自己身上。对于是否采用Youtube视频训练AI的询问，OpenAI方面回应称，他们使用了“多个来源”的数据。Google发言人Matt Bryant则表示，公司对OpenAI的行为一无所知，且禁止任何人“未经授权抓取或下载Youtube视频”。不过Bryant也表示，公司只会在有明确法律、技术依据时才会采取行动。Google自家的条款，则允许平台使用这些视频开发视频平台的新功能，但这样的措辞是否意味着Google能用这些资料开发商用AI，也存在不小的疑问。与此同时，Meta的内部会议纪要显示，工程师和产品经理讨论了购买美国大型出版商Simon & Schuster以获取长文本资料的计划，另外他们还讨论了从互联网上收集受版权保护的内容，并表示“与出版商、艺术家、音乐家和新闻行业谈判授权需要的时间太多了”。据悉，有Meta的高管表示，OpenAI似乎正在使用受版权保护的材料，所以公司也可以遵循这个“市场先例”。更显性的变化是，Google去年修改了服务条款。根据内部资料显示，推动隐私政策变化的动机之一，包括允许Google利用公开的Google文档、Google地图上的餐厅评论，以及更多在线资料开发AI产品。最终Google赶在美国国庆节（7月4日）放假前的7月1日发布了修改后的隐私条款，将“使用公开信息训练AI模型”首次纳入其中。Bryant回应称，公司不会在没有用户“明确许可”的情况下使用他们的Google文档来训练AI，这里指的是自愿参与的实验性功能体验计划。即便如此还是不够正因为这些操作，近些年来伴随着人们对AI能力的惊叹，越来越多的版权方也开始意识到自己的数据被偷偷拿走训练AI了。包括《纽约时报》、一些电影制作人和作家已经将这些科技公司告上法庭，美国著作权局也正在制定版权法在AI时代的适用指南。问题在于，即便一些作家、制片人将科技公司的行为称为“美国史上最大盗窃案”，科技公司用来发展下一代AI的数据依然还是不够。2020年初，约翰霍普金斯大学的理论物理学家（现Anthropic首席科学官）Jared Kaplan发布了一篇论文，明确表示训练大语言模型用的数据越多，表现就会越好。自那以后，“规模就是一切”成为了人工智能行业的信条。2020年11月发布的GPT-3包含约3000亿个Token的训练数据。2022年，GoogleDeepMind对400个人工智能模型进行测试，其中表现最好的模型（之一），一个名为Chinchilla的模型用了1.4万亿个Token的数据。到2023年，中国科学家开发的Skywork大模型在训练中使用了3.2万亿个英文和中文Token，GooglePaLM 2的训练数据量则达到3.6万亿个Token。研究机构Epoch直白地表示，现在科技公司使用数据的速度已经超过数据生产的速度，这些公司最快会在2026年就耗尽互联网上的高质量数据。面对这样的问题，奥尔特曼已经提出了一种解决方法：像OpenAI这样的公司，最终会转向使用AI生成的数据（也被称为合成数据）来训练AI。这样开发人员在创建愈发强大的技术同时，也会减少对受版权保护数据的依赖。目前OpenAI和一系列机构也正在研究使用两个不同的模型，能否共同生成更有用、更可靠的合成数据一个系统产生数据，另一个系统对信息进行评判。当然，这种技术路径是否可行，目前仍存争议。前 OpenAI 研究员Jeff Clune认为，这些AI系统所需的数据就像是穿越丛林的路径，如果这些公司只是在合成数据上训练，AI可能会在丛林里迷失。 ... PC版：手机版：

研究发现：用人工智能生成的图像训练出的人工智能产生了糟糕的结果。

研究发现：用人工智能生成的图像训练出的人工智能产生了糟糕的结果。斯坦福大学和莱斯大学的研究人员发现，生成式人工智能模型需要“新鲜的真实数据”，否则输出的质量就会下降。这对摄影师和其他创作者来说是个好消息，因为研究人员发现，训练数据集中的合成图像会放大人工痕迹，使人工智能画出的人类看起来越来越不像真人。研究小组将这种状况命名为“模型自噬障碍”。如果自噬循环的每一代都没有足够的新鲜真实数据，未来的生成模型注定会逐渐降低其质量或多样性。如果该研究论文是正确的，那么这意味着人工智能将无法开发出无穷无尽的数据源。人工智能仍然需要真实、高质量的图像来不断进步，而不是依赖自己的输出。这意味着生成式人工智能将需要摄影师。

“弱智吧”帖子训练AI效果遥遥领先？研究团队回应

“弱智吧”帖子训练AI效果遥遥领先？研究团队回应白岳霖是中国科学院深圳先进技术研究院三年级硕士生。他的团队在题为“COIG-CQIA: Quality is All You Need for Chinese Instruction Fine-tuning”的研究中，使用“弱智吧标题+GPT-4回答”微调后的大模型评估结果，超过了他们收集的其他有监督微调（SFT）指令集数据。后者来自包括知乎、百科、豆瓣、小红书等社交平台。对此，业内人士表示“看论文看到哈哈大笑”。网友纷纷跟帖评论：“这把‘弱智吧’上大分”“大智若愚”“‘弱智吧’才是人类面对AI的最后一道堡垒”。“没想到这个工作‘出圈’了，但网上存在一些错误解读，比如有人拿这个研究调侃‘知乎不如弱智吧’。”作为论文共同第一作者，白岳霖告诉《中国科学报》，这篇文章的作者来自国内外多个顶尖机构，“考虑到团队学术声誉与社会影响，这些误读有必要澄清一下”。白岳霖“上大分”的不是“弱智吧”“弱智吧”是百度贴吧的一个子论坛。在这个论坛中，用户经常发布包含双关语、多义词、因果倒置和谐音词等具有挑战性的内容，很多内容设计有逻辑陷阱，即使对人类来说也颇具挑战。弱智吧帖子标题的风格大概如下：“一个半小时是几个半小时？”“陨石为什么总是落在陨石坑里？”“人如果只剩一个心脏还能活吗？”“蓝牙耳机坏了，去医院挂耳科还是牙科？”“弱智吧”截图还有一些幽默发言角度清奇：“生鱼片是死鱼片”“等红灯是在等绿灯”“咖啡因来自咖啡果”“救火是在灭火”“指南针主要是指北”“小明打开水龙头是因为开水龙头烫到了小明的手”……正因为“弱智吧”中许多提问脑洞大开，这些问题常被用来测试大模型的能力。这样的语料数据，自然也逃不过研究团队的“法眼”。此外，《中国科学报》了解到，这支研究团队的平均年龄只有20多岁，大多为在读硕士生和博士生。他们经常光顾知乎、豆瓣、小红书等平台，当然也少不了“弱智吧”。当他们决定“手搓”一个高质量的中文指令微调数据集时，“弱智吧”相关语料自然地成为他们的一个选择。不过，并不像传说的那样“弱智吧8项测试第一，远超知乎豆瓣小红书”“竟成最佳中文AI训练数据”。实际上，在Yi-34B大模型上表现上佳的，不单纯是“弱智吧”。具体来说，弱智吧只贡献了个标题。论文提到，研究团队收集了“弱智吧”上点赞数最多的500个帖子，并使用这些帖子的标题作为指令，使用GPT-4生成相应的回复。而对于由GPT-4生成的回复，研究团队还进行了人工审核、优化与筛选，并最终获得了240对（指令，响应）样本。使用这240对样本训练过的Yi-34B大模型，在Belle-Eval测试集上录得高分。Ruozhiba来源的数据集训练效果遥遥领先于其他数据源。图片截自论文要指出的是，除“弱智吧”之外，知乎、小红书、豆瓣、百科等来源的数据，研究团队并没有借助GPT-4去生成回答，而是采用严格的数据过滤，最大程度保留网络中人类撰写的高质量内容。以拥有大量高质量用户生产内容的知乎为例，研究团队设置了“高赞回答”等筛选条件，经内容过滤、评分后，即采用得分较高的原内容。相形之下，研究团队仅使用弱智吧帖子的标题作为训练大模型的指令，完全没有包含网友的回帖和评论，而是使用GPT4辅助人工构造了回复答案。因此，面对网上“‘弱智吧’上大分”之类的言论，白岳霖回应说：“网络上的宣传过分夸大事实。”“许多读者误以为我们使用‘弱智吧’网友的评论训练大模型就可以达到很好的效果，事实上，我们仅保留了弱智吧帖子的标题。”白岳霖说：“实验结果并不能代表弱智吧，因为数据实际上相当于多方（网友、作者们和大模型系统）协同构造的。”对各平台来源的数据“跑分”并非研究本意研究团队为何仅针对“弱智吧”作文章？“因为我们的目标是构建符合大模型指令微调质量需求的数据，而贴吧中网友的评论通常不适合直接作为微调数据，因此我们并没有将‘弱智吧’网友的评论纳入我们的数据中。”白岳霖告诉《中国科学报》。论文通讯作者、加拿大滑铁卢大学博士生张舸进一步向《中国科学报》解释：“‘弱智吧’中网友们绞尽脑汁想出来的‘弱智问题’，的确为大模型提供了角度清奇的高质量指令。但是帖子的回答，却有很多冒犯性表述甚至事实性错误，许多回答就是抖机灵、玩梗的，而GPT-4的回答基本上都‘很正经’，经过人工筛选基本上能得到较为可靠的回答。”由于对“弱智吧”数据的“区别对待”在传播中很难被关注到，吃瓜群众很容易就对这项工作产生了误读，认为仅使用“弱智吧”的内容就能将大模型训练出远超其他平台的效果。白岳霖进一步谈到：“我们的实验结果也不能完全代表互联网中的各个平台，任何关于平台对立的情绪都不是我们想要探讨或者希望看到的。”不过，也正是研究团队对“弱智吧”数据的特殊操作，在论文内容发酵后引发了相关人士对实验结果的质疑。有质疑者提出：来自知乎、豆瓣等平台的其它子数据集采样了原内容和网友评论，只有“弱智吧”的子数据集完全不包括网友的评论、而是采用了GPT-4合成的回答这样的回答明显更完善、准确、多样，且最终来评分的居然还是GPT-4。“既当运动员又当裁判员，Evaluation bias（评估偏见）不会爆炸吗？用这种操作误导公众、获取流量，是不是有点过于不严谨了？”对于这一诘问，白岳霖也给出了正面回应。“获取流量并不是我们的初衷，我们也无意哗众取宠，更没有计划或安排任何宣传内容，我们的初衷只是想默默为中文NLP（自然语言处理）社区贡献些高质量数据集；对平台‘跑分’的实验本意，是想观察各平台数据对于测试集中各任务都有哪些影响。”白岳霖解释说。至于为何只有“弱智吧”子集不包括网友评论，正如前述所提到的，也是出于“弱智吧”部分网友评论经判断达不到训练语言模型的回答质量标准，因此决定重新构造回答。而使用GPT-4辅助构造回答，则主要是为了尽可能减少人力投入。白岳霖同时表示，已经注意到有关评估偏见的问题，他们计划在下一版论文更新中“补充人工评估实验”。张舸告诉《中国科学报》，“手搓”一个通用的、高质量的中文指令微调数据集，需要做大量筛选、检查和调优的工作，“是个体力活儿”，能寻求机器帮忙的当然不会放过。一切为了“更适合中国宝宝的AI”张舸是这项研究的核心人物，他也是COIG（Chinese Open Instruction Generalist，中文开源指令数据集）系列工作的发起人之一。张舸谈及发起这项研究的初衷，他告诉《中国科学报》，国内在有关中文指令微调数据集方面，目前还没有质量特别好的开源项目，个别项目也只是“勉强能用”，因此萌生了给业界提供一个完全开源的、包含中文社交媒体数据等在内各种来源的、可以直接微调大模型的数据集的想法。通过筛选收集，构建出具有挑战性的、真实的中文语料互动数据，对于训练和评估大语言模型理解和执行中文指令的能力而言，无疑是极具价值的。最直接地，将有利于减少大模型在回答中出现“幻觉”（模型在输出文本时出现的一些并不符合事实或常识的内容）。在这项工作中，作者团队构建了一个包含4万多条高质量数据的中文指令微调数据集，并将其开源给研究机构、企业等各方，为中文NLP社区提供了宝贵的资源。然而，这项工作繁琐复杂，不仅要去各个平台“爬取”高质量的内容数据，还需要... PC版：手机版：

科技巨头狂撒千亿美元 “买照片” 只为训练AI模型？

科技巨头狂撒千亿美元 “买照片” 只为训练AI模型？不只是Photobucket，Reddit、Youtube等知名网站都成了科技巨头们的疯抢目标。苹果为训练AI买图片，网友担忧隐私Photobucket是一个提供影像寄存、视频寄存、幻灯片制作与照片分享服务网站，成立于2003年。在当时，用户把这个网站当作个人相册，与功能与现在流行的在线相册非常相似。在巅峰期，该网站曾拥有7000万用户。而到2007年，Photobucket就声称已有超过28亿张图像上传到其网站。不过随着越来越多的功能更强大的在线相册App出现之后，这种网站式的在线相册也逐渐失去了热度。不过毕竟是一家成立二十多年的网站，别的不说，数据是真的多，130亿张图片与视频，足够AI模型消化很久。据悉，苹果购买的图片的主要目的就是提高生成式AI的水平。除此之外，苹果公司在早些时候与另一家图片素材网站Shutterstock达成了数百万张图片的授权协议，据悉这笔交易的价值在2500万美元到5000万美元之间。随着今年6月份WWDC大会日益临近，每个人都在期待苹果公司能带来“令人惊叹”的AI功能。但和上笔交易不同，不少网友开始为了隐私担心。有人评论表示，Photobucket的图片来源都是基于网友的“托管，这就意外着这些图片虽然已经是陈年老图，但仍属于用户的个人秘密。而Shutterstock的数据大多是免版税的图片、矢量图和插图库，包括影片剪辑以及音乐曲目，本身就可以授权给用户使用。这么一对比，网友对于Photobucket的数据隐私安全问题也可以理解了。除了涉及隐私以外，不少网友还对这些库存照片的质量提出了质疑。如果给AI喂食这些本来就带有错误的图片，那么是否会生成质量更低的图片呢？总之，就苹果购买Photobucket图片的行为，大多数网友并不赞同。但即使冒着泄露隐私的风险，苹果和其他公司们还是得“铤而走险”搞来这些数据。主要原因还是高质量的互联网数据，可能没几年就要耗尽了。其实早在多年前，各大科技巨头就已经碰到训练语料缺失的瓶颈。据《纽约时报》报道，OpenAI在训练GPT-4时，就曾遇到英文文本资料缺失的情况。为了处理这个问题，OpenAI推出一款名为Whisper语音识别工具，用来转录Google旗下视频平台Youtube的视频音频，生成大量的对话文本。据报道称，这款工具以开源的名义转录了超过一百万小时的Youtube视频，实际上已经违反了Youtube的隐私规则，而这些资料也成为ChatGPT的基础。这并不是OpenAI第一次因为偷扒数据犯错。包括《纽约时报》在内，多家数字新闻媒体对OpenAI提起版权侵权诉讼，认为他们的数千篇报道被OpenAI用来训练ChatGPT。当然，通过“爬虫”等手段搜刮训练数据的科技公司不止OpenAI这一家，“受害者”Google也曾通过修改服务条款的方式，将“使用公开信息训练AI模型”偷偷写进隐私细则中，从而允许工程师们利用公开的文档、在线资料等开发AI产品。不过随着OpenAI在版权问题上越陷越深，其他科技巨头也只能乖乖掏钱为训练数据付费。至少比起互联网上免费抓取的数据，Photobucket近130亿的数据量还是相对来说质量更高点。花钱买数据，或许还不够可怕的是，即便是130亿的数据量，也可能喂不饱现在的AI的模型。研究机构Epoch直白地表示，现在科技公司使用数据的速度已经超过数据生产的速度，这些公司最快会在2026年就耗尽互联网上的高质量数据。有数据统计，在2020年11月发布的GPT-3上，使用了3000亿个Token的训练数据。而到了2024年，GooglePaLM 2的训练数据量则达到3.6万亿个Token。数据量是一回事，数据的质量更是直接影响AI大模型的生成能力。正如网友所担忧的那样，低质量的数据甚至可能让AI陷入不可逆转的方向。面对这样的问题，OpenAI开始尝试使用合成数据（AI生成的数据）来训练AI。这样既可以减少对受版权保护数据的依赖，同时也能训练出更强大的结果。对此OpenAI和一系列机构开始研究使用两个不同的模型来生成更有用、更可靠的合成数据，其中一个模型用来生成数据，另一个则用来对生成的数据进行审核。不只是OpenAI，英伟达很早就在用合成数据弥补现实世界的数据。在2021年11月，英伟达对外推出合成数据生成引擎Omniverse Replicator 。英伟达将其描述为“用于生成具有基本事实的合成数据以训练 AI 网络的引擎”，其作用就是用来训练AI。此产品推出后，由该引擎生成的合成数据在自动驾驶、机器人等多个场景里都得到了验证，因此英伟达也在近些年希望将其推广到更多领域，包括聊天机器人。然而，合成数据在工业场景里的成功案例，并不代表在其他领域都能遵循物理规律。有时候AI连真实图片都无法理解，更不要说理解二次生成的图片了。 ... PC版：手机版：

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人