“GPT-N”一定更强吗?专家警告:当人类数据用完 AI大模型或将越来越笨

“GPT-N”一定更强吗?专家警告:当人类数据用完AI大模型或将越来越笨图《丈夫一箩筐》海报放眼当下,以ChatGPT为代表的大型语言模型(LLMs),在一定程度上也成为了人类智力的克隆产物。而数据作为模型性能和泛化能力的重要基础之一,会直接影响这些“克隆人”的智能水平。如我们所知,用于训练LLMs和其他支撑ChatGPT、StableDiffusion和Midjourney等产品的Transformer模型的数据,最初都来自于人类的资源,如书籍、文章、照片等。而这些都是在没有人工智能(AI)帮助的情况下创造出来的。未来,随着AI生成的数据越来越多,大模型训练又将如何展开?当AI只能用自己生成的数据来训练自己时,又会怎样?近日,牛津大学、剑桥大学的研究人员及其合作者对这一问题进行了研究,并将研究成果论文发表在了预印本网站arXiv上。论文链接:https://arxiv.org/abs/2305.17493v2他们通过研究文本到文本和图像到图像AI生成模型的概率分布,得出了这样一个结论:“模型在训练中使用(其他)模型生成的内容,会出现不可逆转的缺陷。”即“模型崩溃”(ModelCollapse)。什么是模型崩溃?本质上,当AI大模型生成的数据最终污染了后续模型的训练集时,就会发生“模型崩溃”。论文中写道,“模型崩溃指的是一个退化的学习过程,在这个过程中,随着时间的推移,模型开始遗忘不可能发生的事件,因为模型被它自己对现实的投射所毒化。”一个假设的场景更有助于理解这一问题。机器学习(ML)模型在包含100只猫的图片的数据集上进行训练——其中10只猫的毛色为蓝色,90只猫的毛色为黄色。该模型了解到黄猫更普遍,但也表示蓝猫比实际情况偏黄一点,当被要求生成新数据时,会返回一些代表“绿毛色的猫”的结果。随着时间的推移,蓝色毛色的初始特征会在连续的训练周期中逐渐消失,从逐渐变成绿色,最后变成黄色。这种渐进的扭曲和少数数据特征的最终丢失,就是“模型崩溃”。论文中还强调,还有许多其他方面会导致更严重的影响,比如基于性别、种族或其他敏感属性的歧视,特别是如果生成式AI随着时间的推移学会在其反应中产生一个种族,而“忘记”他人的存在。重要的是要注意,这种现象不同于“灾难性遗忘”(catastrophicforgetting),模型只是丢失以前学到的信息,相比之下,“模型崩溃”涉及模型根据它们强化的信念误解现实。此外,研究人员表示,即使在训练后代模型时使用的人类自身创作数据占比依然有10%,“模型崩溃也还会发生,只是不会那么快。”可以避免吗?幸运的是,有一些方法可以避免模型崩溃,即使是对于当前的Transformers和LLMs而言。在论文中,为避免响应质量下降,并减少AI模型中不需要的错误或重复,研究人员给出了两种具体方式。第一种方法是,保留原始的完全或名义上由人类生成的数据集的副本,并避免与AI生成的数据相混淆。然后,模型可以根据这些数据定期重新训练,或者从头开始进行一次“完全刷新”。第二种方法,将新的、清洗过的、人类生成的数据集重新引入到模型训练中。然而,正如研究人员指出的那样,这需要内容制作者或AI公司采用某种大规模的标签机制,或由内容生产商、AI公司使用更好的方法来区分AI和人类生成的内容。“这会增加训练成本,但至少在某种程度上会帮助你抵消模型崩溃。”另外,研究人员也给出了提示:“为了阻止模型崩溃,我们需要确保原始数据中的少数群体在后续数据集中得到公平的代表。”但在实践中,这是十分困难的。例如,数据需要被仔细备份,并涵盖所有可能的少数情况。在评估模型的性能时,应该使用模型预期要处理的数据,即使是那些最不可能的数据案例。(请注意,这并不意味着应该对不可能的数据进行过采样,而是应该适当地表示它们。)未来,人类创造的内容将更有价值?尽管这一警示似乎对当前的生成式AI技术以及寻求通过它获利的公司来说都是令人担忧的,但是从中长期来看,或许能让人类内容创作者看到更多希望。研究人员表示,在充满AI工具及其生成内容的未来世界,人类创造的内容将比今天更有价值——如果只是作为人工智能原始训练数据的来源。这一发现,对AI领域有着重要的意义。研究人员强调,我们通过改进方法来保持生成模型的完整性,以及未经检查的生成过程的风险,并可能指导未来的研究,防止或管理模型崩溃。“很明显,模型崩溃是ML的一个问题,必须采取一些措施来确保生成式AI继续得到改进。”...PC版:https://www.cnbeta.com.tw/articles/soft/1365101.htm手机版:https://m.cnbeta.com.tw/view/1365101.htm

相关推荐

封面图片

研究表明用AI产生的语料来训练AI将使其退化并最终崩溃

研究表明用AI产生的语料来训练AI将使其退化并最终崩溃现在,随着越来越多的人使用AI来制作和发布内容,一个明显的问题出现了:当AI生成的内容在互联网上激增并且AI模型开始用其进行训练,而不是使用主要人类生成的内容时,会发生什么?来自英国和加拿大的一组研究人员已经研究了这个问题,并且最近在开放获取期刊arXiv上发表了一篇关于他们工作的论文。他们的发现令当前的生成式AI技术及其未来令人担忧:“我们发现在训练中使用模型生成的内容会导致生成的模型出现不可逆转的缺陷。”研究人员专门研究了文本到文本和图像到图像AI生成模型的概率分布,得出结论:“从其他模型生成的数据中学习会导致模型崩溃——一个退化过程,随着时间的推移,模​​型会忘记真正的底层数据分布……这个过程是不可避免的,即使对于具有近乎理想的长期学习条件的情况也是如此。”“随着时间的推移,生成数据中的错误会复合并最终迫使从生成数据中学习的模型进一步错误地感知现实,”该论文的主要作者之一IliaShumailov在给VentureBeat的电子邮件中写道。“我们惊讶地观察到模型崩溃发生的速度有多快:模型可以迅速忘记他们最初从中学习的大部分原始数据。”换句话说:当AI训练模型接触到更多AI生成的数据时,它的性能会随着时间的推移而变差,在其生成的响应和内容中产生更多错误,并在其响应中产生更少的非错误多样性。——额外编辑:研究人员同样担忧,目前互联网上AI生成内容正在迅速增加,训练下一代ai的数据正在被迅速污染。

封面图片

研究人员测试了热门的大语言模型的版权侵权情况

研究人员测试了热门的大语言模型的版权侵权情况新创AI模型评估公司PatronusAI周三发布了一个API,用于检测大语言模型版权内容的CopyrightCatcher(版权捕手)。同时该公司还展示了热门的AI模型生成受版权保护内容的频率。Patronus仅使用美国受版权保护的书籍来测试模型,并从编目网站Goodreads中选择流行的书籍。研究人员设计了100种不同的提示语,让模型以续写或输出第一页的方式回应。OpenAI的GPT-4表现最差,在44%的提示上生成了受版权保护的内容,Mixtral为22%。Anthropic的Claude2为8%,Meta的Llama-2为10%。总体来说所有模型,无论开源闭源都生成了受版权保护的内容,暗示了其训练数据中可能也使用了这些数据。OpenAI曾在今年早些时候表示,如果没有受版权保护的作品,“不可能”训练顶级人工智能模型。——、

封面图片

研究发现GPT-4o道德推理能力已胜过人类专家

研究发现GPT-4o道德推理能力已胜过人类专家在第一项研究中,501名美国成年人对GPT-3.5-turbo模型与人类参与者提供的道德解释进行了比较,结果显示,GPT的解释被认为更符合道德标准、更值得信赖,也更周到。第二项研究中,GPT-4o生成的建议与“伦理学家”专栏中著名伦理学家KwameAnthonyAppiah的建议进行了对比。900名参与者对50个“伦理困境”的建议进行了评分,GPT-4o在几乎所有方面都胜过了人类专家。AI生成的建议被认为在道德上更正确、更值得信赖、更周到,并且在准确性方面也更胜一筹。不过这项研究仅针对美国参与者进行,未来还需进一步研究以探讨不同文化背景下人们对AI生成的道德推理的接受度。尽管如此,这一发现已经引发了关于AI在道德和伦理决策中角色的重要讨论,预示着人工智能在这一领域的应用潜力。研究人员提醒,尽管AI在道德推理方面表现出色,但仍需谨慎对待其建议,特别是在缺乏人类监督的情况下。...PC版:https://www.cnbeta.com.tw/articles/soft/1435881.htm手机版:https://m.cnbeta.com.tw/view/1435881.htm

封面图片

OpenAI 探索用 GPT-2 小模型监督 GPT-4 大模型,防止 AI 毁灭人类

OpenAI探索用GPT-2小模型监督GPT-4大模型,防止AI毁灭人类Ilya领衔的OpenAI对齐团队,发表了——用类似GPT-2监督GPT-4的方法,或可帮人类搞定自己更聪明的超级AI!团队声称,已经发现了对超人类模型进行实证对齐的新研究方向。未来超级AI系统对齐的一个核心挑战——人类需要监督比自己更聪明人工智能系统。来源,频道:@kejiqu群组:@kejiquchat

封面图片

人工智能对人工智能生成的内容进行训练将导致人工智能崩溃

人工智能对人工智能生成的内容进行训练将导致人工智能崩溃用于训练大型语言模型的数据最初来自人类来源,如书籍、文章、照片等,这些都是在没有人工智能的帮助下创建的。但随着越来越多的人使用人工智能来制作和发布内容,一个明显的问题出现了:当人工智能生成的内容在互联网上扩散时,人工智能模型开始对其进行训练。研究人员发现,“在训练中使用模型生成的内容会导致所产生的模型出现不可逆转的缺陷。”他们研究了文本到文本和图像到图像的人工智能生成模型的概率分布,得出结论:“从其他模型产生的数据中学习会导致模型崩溃——这是一个退化的过程,并且随着时间的推移,模型会忘记真正的基础数据分布。”他们观察到模型崩溃发生得如此之快:模型可以迅速忘记它们最初学习的大部分原始数据。这导致它们随着时间的推移,表现越来越差,错误越来越多。来源,来自:雷锋频道:@kejiqu群组:@kejiquchat投稿:@kejiqubot

封面图片

世界上首位 AI 程序员诞生 专家:人类或将为 AI “做担保”

世界上首位AI程序员诞生专家:人类或将为AI“做担保”世界上第一位AI程序员Devin诞生,不仅能自主学习新技术,自己改Bug,甚至还能训练和微调自己的AI模型,表现已然远超GPT-4等“顶流选手”。专家提出,在未来,更多的内容是通过人与AI的协作生成。不管生成结果究竟属于“人造”还是“AI造”,最后可能都需要归因到一个人类主体,发布内容都需要一个“担保人”。同时,个人和企业都要对自己发布的信息负责,使用AI生成与事实不符的虚假信息应该受到相应的惩罚。

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人