研究表明用AI产生的语料来训练AI将使其退化并最终崩溃

研究表明用AI产生的语料来训练AI将使其退化并最终崩溃现在，随着越来越多的人使用AI来制作和发布内容，一个明显的问题出现了：当AI生成的内容在互联网上激增并且AI模型开始用其进行训练，而不是使用主要人类生成的内容时，会发生什么？来自英国和加拿大的一组研究人员已经研究了这个问题，并且最近在开放获取期刊arXiv上发表了一篇关于他们工作的论文。他们的发现令当前的生成式AI技术及其未来令人担忧：“我们发现在训练中使用模型生成的内容会导致生成的模型出现不可逆转的缺陷。”研究人员专门研究了文本到文本和图像到图像AI生成模型的概率分布，得出结论：“从其他模型生成的数据中学习会导致模型崩溃——一个退化过程，随着时间的推移，模型会忘记真正的底层数据分布……这个过程是不可避免的，即使对于具有近乎理想的长期学习条件的情况也是如此。”“随着时间的推移，生成数据中的错误会复合并最终迫使从生成数据中学习的模型进一步错误地感知现实，”该论文的主要作者之一IliaShumailov在给VentureBeat的电子邮件中写道。“我们惊讶地观察到模型崩溃发生的速度有多快：模型可以迅速忘记他们最初从中学习的大部分原始数据。”换句话说：当AI训练模型接触到更多AI生成的数据时，它的性能会随着时间的推移而变差，在其生成的响应和内容中产生更多错误，并在其响应中产生更少的非错误多样性。——额外编辑：研究人员同样担忧，目前互联网上AI生成内容正在迅速增加，训练下一代ai的数据正在被迅速污染。

在Telegram中查看

相关推荐

人工智能对人工智能生成的内容进行训练将导致人工智能崩溃

人工智能对人工智能生成的内容进行训练将导致人工智能崩溃用于训练大型语言模型的数据最初来自人类来源，如书籍、文章、照片等，这些都是在没有人工智能的帮助下创建的。但随着越来越多的人使用人工智能来制作和发布内容，一个明显的问题出现了：当人工智能生成的内容在互联网上扩散时，人工智能模型开始对其进行训练。研究人员发现，“在训练中使用模型生成的内容会导致所产生的模型出现不可逆转的缺陷。”他们研究了文本到文本和图像到图像的人工智能生成模型的概率分布，得出结论：“从其他模型产生的数据中学习会导致模型崩溃——这是一个退化的过程，并且随着时间的推移，模型会忘记真正的基础数据分布。”他们观察到模型崩溃发生得如此之快：模型可以迅速忘记它们最初学习的大部分原始数据。这导致它们随着时间的推移，表现越来越差，错误越来越多。来源，来自：雷锋频道：@kejiqu群组：@kejiquchat投稿：@kejiqubot

科学家警告：用AI生成内容训练AI 将在几代内开始产生＂垃圾＂

科学家警告：用AI生成内容训练AI将在几代内开始产生＂垃圾＂该研究的作者之一、剑桥大学教授罗斯·安德森(RossAnderson)在阐述关于研究结果的博客文章中写道，数据表明，“经过几次迭代后，人工智能输出的文字就变成了垃圾，图像也会变得无法理解”。这些科学家们的论文尚未经过同行评审，他们称这种现象为“模型崩溃”。聊天机器人ChatGPT背后的大语言模型(LLM)通常需要从互联网上抓取大量数据进行训练，这些数据多为人类生成。但随着人们对这些工具的使用越来越多，人工智能生成的内容正被大量添加到在线数据池中，未来的LLM将从中学习。科学家们说，利用人工智能生成内容对人工智能系统进行迭代训练，意味着错误和无意义的例子会不断增加，使后来的人工智能无法区分事实和虚构内容。他们担忧道，人工智能将“通过强化自己的信念，开始曲解他们认为是真实的东西”。安德森用莫扎特（Mozart）和另一位音乐家安东尼奥·萨列里（AntonioSalieri）的作品来阐释这个问题。他写道：“如果你用莫扎特的作品来训练某个音乐模型，你可以期待输出的音乐风格有点像莫扎特，但不会有太多亮点，我们可以称之为‘萨列里’。然后再利用‘萨列里’训练下一代人工智能系统，如此反复下去，第五代或第六代模型会是什么样子?”这项研究的第一作者、牛津大学教授伊利亚·舒马伊洛夫（IliaShumailov）说，问题在于人工智能在接受早期人工智能生成内容的训练后对概率的感知。不太可能发生的事件越来越不可能反映在它的输出中，从而缩小了下一代人工智能（根据这种输出进行训练）所能理解的可能性。在论文中给出的一个例子中，人类生成的关于中世纪建筑的文本通过人工智能语言模型输入，然后该模型的输出用于训练下一代人工智能。最初的文本巧妙地处理了相互竞争的建筑理论，并经过了多次这样的循环。到了第九次迭代，这些文字就变成了毫无意义的胡言乱语。上面写着：“建筑是世界上最大的黑长耳大野兔、白长耳大野兔、蓝长耳大野兔、红长耳大野兔、黄长耳大野兔的家园。”安德森将“模型崩溃”比作大规模污染，他写道：“就像我们在海洋里撒满了塑料垃圾，在大气中放满了二氧化碳，我们即将让互联网上充满胡言乱语。”人工智能生成的内容已经在网上大规模出现。今年5月，在线虚假信息监管机构NewsGuard警告称，它发现49个新闻网站似乎完全由人工智能撰写内容。据报道，市场营销和公关机构越来越多地将文案外包给聊天机器人，从而抢走了人类创作者的工作。但是，根据舒马伊洛夫和安德森的发现，希望不被人工智能打败的人类创作者还不应该开香槟庆祝。舒马伊洛夫说，对于训练人工智能来说，人工生成的数据并不是绝对必要的，它之所以有用，是因为我们的语言产生了大量的自然变化、错误和不可预测的结果。“所以，人类肯定会提供帮助，”他说。“与此同时，这也表明，在训练人工智能时，人类数据的需求不会非常庞大。”...PC版：https://www.cnbeta.com.tw/articles/soft/1366273.htm手机版：https://m.cnbeta.com.tw/view/1366273.htm

“弱智吧”不收弱智，成最佳中文AI训练语料！

“弱智吧”不收弱智，成最佳中文AI训练语料！4月4日，“弱智吧”突然在中文AI领域刷屏，中科院用各大社交平台的数据，作为中文AI语料数据进行训练，结果发现“弱智吧”居然是最棒的中文语料，在多项测试中取得最高分！目前LLM大型语言模型中，英文语料占到大多数，而中文数据集此前多半是先从英文翻译再进行训练，很多大模型的中文效果比英文差，为了调侃AI，许多人也常常拿弱智吧的问题去挑战AI。为了更好地满足中文大模型的需求，中科院联合多所大学利用中文数据集来训练中文大模型。首先，团队直接找到某乎、某瓣等社交网络平台，爬取数据并进行标注，打造了全新的中文指令微调数据集COIG-CQIA，再用这些数据集来训练零一万物开源大模型，并用GPT4在BELLE-Eval测试集上打分。在340亿参数版本的Yi-34B下，弱智吧的分数非常突出，可以说是一骑绝尘，在问答、分类、生成、总结、摘要和代码上均取得极高的分数，数学某乎分数最高76分，但弱智吧也取得了72.6分的高分，最终均分76.9分遥遥领先！弱智吧的出色成绩也引起了大量的讨论，对比其他专业的技术问答社区，弱智吧的数据集其实更加精炼有效，提高模型的逻辑推理能力，而且“弱智”的方向十分多元，文本质量极高，从而提高了模型性能。而COIG-CQIA，也成为目前相对来说相当高质量的中文指令微调数据集，收集了来自各种来源如社交媒体、百科知识、考试题库等大量高质量的中文指令，弱智吧的出色表现，出在高质量中文知识学习方面的潜力，也给我们带来更多深入的思（乐）考（子）。标签:#AI#中文预料#弱智吧频道:@GodlyNews1投稿:@GodlyNewsBot

AI产业的灰暗面：OpenAI、谷歌、Meta如何获取训练语料

AI产业的灰暗面：OpenAI、谷歌、Meta如何获取训练语料《纽约时报》在本周末刊发的调查报道中，揭露了OpenAI、Google、Meta等公司为了获取训练语料所采取的一些“走捷径”措施，同时也展现了整个行业迫在眉睫的困境。美国科技巨头各走“捷径”2021年末，正在训练GPT-4的OpenAI遇到了一个棘手的问题，公司已经耗尽了互联网上所有可靠的英文文本资源，而他们需要更多、更大规模的数据来训练更强大的模型。为了处理这个问题，OpenAI的Whisper语音识别工具诞生了——用来转录Google旗下视频平台Youtube的视频音频，生成大量的对话文本。报道称，包括OpenAI总裁布洛克曼在内的团队总共转录了超过一百万小时的Youtube视频。随后这些资料被输入到GPT-4系统中，并成为聊天机器人ChatGPT的基础。根据Google的政策，禁止用户将平台上的视频用于“独立”应用，同时禁止通过任何自动化手段（爬虫等）访问其视频。有趣的是，在OpenAI偷偷扒Youtube视频时，Google也在转录自家流媒体平台的内容训练大模型——同样冒着侵犯版权的风险。正因如此，虽然有Google员工知道OpenAI在这么干，也没有出手阻止。因为一旦Google对OpenAI提出抗议，也有可能“引火烧身”到自己身上。对于是否采用Youtube视频训练AI的询问，OpenAI方面回应称，他们使用了“多个来源”的数据。Google发言人MattBryant则表示，公司对OpenAI的行为一无所知，且禁止任何人“未经授权抓取或下载Youtube视频”。不过Bryant也表示，公司只会在有明确法律、技术依据时才会采取行动。Google自家的条款，则允许平台使用这些视频开发视频平台的新功能，但这样的措辞是否意味着Google能用这些资料开发商用AI，也存在不小的疑问。与此同时，Meta的内部会议纪要显示，工程师和产品经理讨论了购买美国大型出版商Simon&Schuster以获取长文本资料的计划，另外他们还讨论了从互联网上收集受版权保护的内容，并表示“与出版商、艺术家、音乐家和新闻行业谈判授权需要的时间太多了”。据悉，有Meta的高管表示，OpenAI似乎正在使用受版权保护的材料，所以公司也可以遵循这个“市场先例”。更显性的变化是，Google去年修改了服务条款。根据内部资料显示，推动隐私政策变化的动机之一，包括允许Google利用公开的Google文档、Google地图上的餐厅评论，以及更多在线资料开发AI产品。最终Google赶在美国国庆节（7月4日）放假前的7月1日发布了修改后的隐私条款，将“使用公开信息训练AI模型”首次纳入其中。Bryant回应称，公司不会在没有用户“明确许可”的情况下使用他们的Google文档来训练AI，这里指的是自愿参与的实验性功能体验计划。即便如此还是不够正因为这些操作，近些年来伴随着人们对AI能力的惊叹，越来越多的版权方也开始意识到自己的数据被偷偷拿走训练AI了。包括《纽约时报》、一些电影制作人和作家已经将这些科技公司告上法庭，美国著作权局也正在制定版权法在AI时代的适用指南。问题在于，即便一些作家、制片人将科技公司的行为称为“美国史上最大盗窃案”，科技公司用来发展下一代AI的数据依然还是不够。2020年初，约翰霍普金斯大学的理论物理学家（现Anthropic首席科学官）JaredKaplan发布了一篇论文，明确表示训练大语言模型用的数据越多，表现就会越好。自那以后，“规模就是一切”成为了人工智能行业的信条。2020年11月发布的GPT-3包含约3000亿个Token的训练数据。2022年，GoogleDeepMind对400个人工智能模型进行测试，其中表现最好的模型（之一），一个名为Chinchilla的模型用了1.4万亿个Token的数据。到2023年，中国科学家开发的Skywork大模型在训练中使用了3.2万亿个英文和中文Token，GooglePaLM2的训练数据量则达到3.6万亿个Token。研究机构Epoch直白地表示，现在科技公司使用数据的速度已经超过数据生产的速度，这些公司最快会在2026年就耗尽互联网上的高质量数据。面对这样的问题，奥尔特曼已经提出了一种解决方法：像OpenAI这样的公司，最终会转向使用AI生成的数据（也被称为合成数据）来训练AI。这样开发人员在创建愈发强大的技术同时，也会减少对受版权保护数据的依赖。目前OpenAI和一系列机构也正在研究使用两个不同的模型，能否共同生成更有用、更可靠的合成数据——一个系统产生数据，另一个系统对信息进行评判。当然，这种技术路径是否可行，目前仍存争议。前OpenAI研究员JeffClune认为，这些AI系统所需的数据就像是穿越丛林的路径，如果这些公司只是在合成数据上训练，AI可能会在丛林里迷失。...PC版：https://www.cnbeta.com.tw/articles/soft/1426528.htm手机版：https://m.cnbeta.com.tw/view/1426528.htm

从其他模型生成的数据中学习会导致模型崩溃——一种退化过程，随着时间的推移，模型会忘记真实的基础数据分布……即使在几乎理想的长期学

从其他模型生成的数据中学习会导致模型崩溃——一种退化过程，随着时间的推移，模型会忘记真实的基础数据分布……即使在几乎理想的长期学习条件下，这个过程也是不可避免的。https://venturebeat.com/ai/the-ai-feedback-loop-researchers-warn-of-model-collapse-as-ai-trains-on-ai-generated-content/?utm_source=bensbites&utm_medium=newsletter&utm_campaign=eu-goes-hard-on-ai

“GPT-N”一定更强吗？专家警告：当人类数据用完 AI大模型或将越来越笨

“GPT-N”一定更强吗？专家警告：当人类数据用完AI大模型或将越来越笨图《丈夫一箩筐》海报放眼当下，以ChatGPT为代表的大型语言模型（LLMs），在一定程度上也成为了人类智力的克隆产物。而数据作为模型性能和泛化能力的重要基础之一，会直接影响这些“克隆人”的智能水平。如我们所知，用于训练LLMs和其他支撑ChatGPT、StableDiffusion和Midjourney等产品的Transformer模型的数据，最初都来自于人类的资源，如书籍、文章、照片等。而这些都是在没有人工智能（AI）帮助的情况下创造出来的。未来，随着AI生成的数据越来越多，大模型训练又将如何展开？当AI只能用自己生成的数据来训练自己时，又会怎样？近日，牛津大学、剑桥大学的研究人员及其合作者对这一问题进行了研究，并将研究成果论文发表在了预印本网站arXiv上。论文链接：https://arxiv.org/abs/2305.17493v2他们通过研究文本到文本和图像到图像AI生成模型的概率分布，得出了这样一个结论：“模型在训练中使用（其他）模型生成的内容，会出现不可逆转的缺陷。”即“模型崩溃”（ModelCollapse）。什么是模型崩溃？本质上，当AI大模型生成的数据最终污染了后续模型的训练集时，就会发生“模型崩溃”。论文中写道，“模型崩溃指的是一个退化的学习过程，在这个过程中，随着时间的推移，模型开始遗忘不可能发生的事件，因为模型被它自己对现实的投射所毒化。”一个假设的场景更有助于理解这一问题。机器学习（ML）模型在包含100只猫的图片的数据集上进行训练——其中10只猫的毛色为蓝色，90只猫的毛色为黄色。该模型了解到黄猫更普遍，但也表示蓝猫比实际情况偏黄一点，当被要求生成新数据时，会返回一些代表“绿毛色的猫”的结果。随着时间的推移，蓝色毛色的初始特征会在连续的训练周期中逐渐消失，从逐渐变成绿色，最后变成黄色。这种渐进的扭曲和少数数据特征的最终丢失，就是“模型崩溃”。论文中还强调，还有许多其他方面会导致更严重的影响，比如基于性别、种族或其他敏感属性的歧视，特别是如果生成式AI随着时间的推移学会在其反应中产生一个种族，而“忘记”他人的存在。重要的是要注意，这种现象不同于“灾难性遗忘”（catastrophicforgetting），模型只是丢失以前学到的信息，相比之下，“模型崩溃”涉及模型根据它们强化的信念误解现实。此外，研究人员表示，即使在训练后代模型时使用的人类自身创作数据占比依然有10%，“模型崩溃也还会发生，只是不会那么快。”可以避免吗？幸运的是，有一些方法可以避免模型崩溃，即使是对于当前的Transformers和LLMs而言。在论文中，为避免响应质量下降，并减少AI模型中不需要的错误或重复，研究人员给出了两种具体方式。第一种方法是，保留原始的完全或名义上由人类生成的数据集的副本，并避免与AI生成的数据相混淆。然后，模型可以根据这些数据定期重新训练，或者从头开始进行一次“完全刷新”。第二种方法，将新的、清洗过的、人类生成的数据集重新引入到模型训练中。然而，正如研究人员指出的那样，这需要内容制作者或AI公司采用某种大规模的标签机制，或由内容生产商、AI公司使用更好的方法来区分AI和人类生成的内容。“这会增加训练成本，但至少在某种程度上会帮助你抵消模型崩溃。”另外，研究人员也给出了提示：“为了阻止模型崩溃，我们需要确保原始数据中的少数群体在后续数据集中得到公平的代表。”但在实践中，这是十分困难的。例如，数据需要被仔细备份，并涵盖所有可能的少数情况。在评估模型的性能时，应该使用模型预期要处理的数据，即使是那些最不可能的数据案例。（请注意，这并不意味着应该对不可能的数据进行过采样，而是应该适当地表示它们。）未来，人类创造的内容将更有价值？尽管这一警示似乎对当前的生成式AI技术以及寻求通过它获利的公司来说都是令人担忧的，但是从中长期来看，或许能让人类内容创作者看到更多希望。研究人员表示，在充满AI工具及其生成内容的未来世界，人类创造的内容将比今天更有价值——如果只是作为人工智能原始训练数据的来源。这一发现，对AI领域有着重要的意义。研究人员强调，我们通过改进方法来保持生成模型的完整性，以及未经检查的生成过程的风险，并可能指导未来的研究，防止或管理模型崩溃。“很明显，模型崩溃是ML的一个问题，必须采取一些措施来确保生成式AI继续得到改进。”...PC版：https://www.cnbeta.com.tw/articles/soft/1365101.htm手机版：https://m.cnbeta.com.tw/view/1365101.htm

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人