OpenAI 科学家翁荔提出外在幻觉extrinsic hallucination 概念

OpenAI科学家翁荔提出外在幻觉extrinsichallucination概念OpenAI科学家翁荔近期在Github上发布文章,提出了一种名为LLM外在幻觉(extrinsichallucination)的全新概念。翁荔表示,模型输出应基于预训练数据集。然而,考虑到预训练数据集的规模,每一代检索和识别冲突的成本太高。如果我们将预训练数据语料库视为世界知识的代表,那么从本质上讲,我们要努力确保模型输出是真实的,并且可以通过外部世界知识进行验证。同样重要的是,当模型不知道某个事实时,它应该说出来。翁荔表示,为了避免外在幻觉的出现,研究者应该保证大模型内容符合事实,同时要保证大模型在适当的时候承认不知道答案。关注频道@ZaiHuaPd频道爆料@ZaiHuabot

相关推荐

封面图片

【OpenAI将用新方法来训练模型,以对抗人工智能“幻觉】

【OpenAI将用新方法来训练模型,以对抗人工智能“幻觉】6月1日消息,OpenAI发布的最新研究论文显示,该公司正在用一种新的方法来训练人工智能(AI)模型,以对抗人工智能“幻觉”。人工智能幻觉指的是人工智能模型生成内容的能力,这些内容不是基于任何现实世界的数据,而是模型自己想象的产物。人们担心这种幻觉可能带来的潜在问题,包括道德、社会和实际问题。OpenAI的研究人员在报告中表示,即使是最先进的人工智能模型也很容易产生谎言,它们在不确定的时刻往往表现出捏造事实的倾向。而这些幻觉在需要多步骤推理的领域尤其严重,因为一个逻辑错误就足以破坏一个更大的解决方案。该公司提出的新策略是:训练人工智能模型时,奖励每个正确的推理步骤,而不仅仅是简单地奖励正确的最终结论。根据研究人员的说法,这种方法被称为“过程监督”,而不是结果监督,它可能会提高人工智能的性能与准确性,因为这种策略鼓励模型更多地遵循类似人类的“思维链”。

封面图片

马斯克的 AI 聊天机器人 Grok 出现 “幻觉”,误认为自己是 OpenAI 的产品

马斯克的AI聊天机器人Grok出现“幻觉”,误认为自己是OpenAI的产品近日,埃隆・马斯克旗下AI公司xAI推出了全新的人工智能聊天机器人Grok,并面向美国地区的Premium+X用户开放。然而,就像所有AI聊天机器人一样,Grok也存在“幻觉”问题,即生成包含虚假或误导信息的回应。这种现象在所有大型语言模型(LLM)中都普遍存在,包括ChatGPT。近日,一个Grok尴尬的“幻觉”在社交媒体上引起热议。有用户在使用Grok时收到回应称:“我无法完成您的请求,因为它违反了OpenAI的用例政策。”xAI工程师IgorBabuschkin对此解释道,Grok在训练过程中使用了大量网络数据,很可能在其中包含由OpenAI生成的文本,导致出现了这样的“幻觉”,他称:“不过请放心,这个问题非常罕见,我们已经意识到了它,并将确保未来的Grok版本不会出现类似的问题。请放心,Grok的开发没有使用任何OpenAI代码。”

封面图片

如果预训练阶段没有看过,在微调时增加的知识可能更容易让模型产生幻觉。

如果预训练阶段没有看过,在微调时增加的知识可能更容易让模型产生幻觉。以此推论,开源模型微调的事实性很难有提升。而GPT4的事实性准确性也来自预训练。anton: ThisisausefulrecenttalkonwhyLLMshallucinate.Itseemsthatfinetuningcanteachthemodeltohallucinatemoreifthatknowledgewasnotpreviouslyseenbeforeduringtraining

封面图片

OpenAI 首席科学家 Ilya 决定离开公司

OpenAI首席科学家Ilya决定离开公司联合创始人兼首席科学家说到:近十年后,我决定离开OpenAI。公司的发展轨迹堪称奇迹,我相信OpenAI将在SamAltman、GregBrockman、MiraMurati以及JakubPachocki出色的研究领导下,打造既安全又有益的AGI。能够与大家共事是我的荣幸,我会非常想念大家。再见,感谢你们所做的一切。我很期待接下来的计划—个项目对我个人来说意义重大,我会在适当的时候分享细节。关注频道@ZaiHuaPd频道投稿@ZaiHuabot

封面图片

科学家警告:用AI生成内容训练AI 将在几代内开始产生"垃圾"

科学家警告:用AI生成内容训练AI将在几代内开始产生"垃圾"该研究的作者之一、剑桥大学教授罗斯·安德森(RossAnderson)在阐述关于研究结果的博客文章中写道,数据表明,“经过几次迭代后,人工智能输出的文字就变成了垃圾,图像也会变得无法理解”。这些科学家们的论文尚未经过同行评审,他们称这种现象为“模型崩溃”。聊天机器人ChatGPT背后的大语言模型(LLM)通常需要从互联网上抓取大量数据进行训练,这些数据多为人类生成。但随着人们对这些工具的使用越来越多,人工智能生成的内容正被大量添加到在线数据池中,未来的LLM将从中学习。科学家们说,利用人工智能生成内容对人工智能系统进行迭代训练,意味着错误和无意义的例子会不断增加,使后来的人工智能无法区分事实和虚构内容。他们担忧道,人工智能将“通过强化自己的信念,开始曲解他们认为是真实的东西”。安德森用莫扎特(Mozart)和另一位音乐家安东尼奥·萨列里(AntonioSalieri)的作品来阐释这个问题。他写道:“如果你用莫扎特的作品来训练某个音乐模型,你可以期待输出的音乐风格有点像莫扎特,但不会有太多亮点,我们可以称之为‘萨列里’。然后再利用‘萨列里’训练下一代人工智能系统,如此反复下去,第五代或第六代模型会是什么样子?”这项研究的第一作者、牛津大学教授伊利亚·舒马伊洛夫(IliaShumailov)说,问题在于人工智能在接受早期人工智能生成内容的训练后对概率的感知。不太可能发生的事件越来越不可能反映在它的输出中,从而缩小了下一代人工智能(根据这种输出进行训练)所能理解的可能性。在论文中给出的一个例子中,人类生成的关于中世纪建筑的文本通过人工智能语言模型输入,然后该模型的输出用于训练下一代人工智能。最初的文本巧妙地处理了相互竞争的建筑理论,并经过了多次这样的循环。到了第九次迭代,这些文字就变成了毫无意义的胡言乱语。上面写着:“建筑是世界上最大的黑长耳大野兔、白长耳大野兔、蓝长耳大野兔、红长耳大野兔、黄长耳大野兔的家园。”安德森将“模型崩溃”比作大规模污染,他写道:“就像我们在海洋里撒满了塑料垃圾,在大气中放满了二氧化碳,我们即将让互联网上充满胡言乱语。”人工智能生成的内容已经在网上大规模出现。今年5月,在线虚假信息监管机构NewsGuard警告称,它发现49个新闻网站似乎完全由人工智能撰写内容。据报道,市场营销和公关机构越来越多地将文案外包给聊天机器人,从而抢走了人类创作者的工作。但是,根据舒马伊洛夫和安德森的发现,希望不被人工智能打败的人类创作者还不应该开香槟庆祝。舒马伊洛夫说,对于训练人工智能来说,人工生成的数据并不是绝对必要的,它之所以有用,是因为我们的语言产生了大量的自然变化、错误和不可预测的结果。“所以,人类肯定会提供帮助,”他说。“与此同时,这也表明,在训练人工智能时,人类数据的需求不会非常庞大。”...PC版:https://www.cnbeta.com.tw/articles/soft/1366273.htm手机版:https://m.cnbeta.com.tw/view/1366273.htm

封面图片

中国科学家提出DNA数字存储纠错新算法

中国科学家提出DNA数字存储纠错新算法DNA数字存储是一种使用生命密码DNA存储信息的新方法,以其存储密度高、存储寿命长且维护成本低的优势,被视为高潜力的新兴存储技术。然而,DNA数字存储过程中的合成错误、保存错误以及测序错误,给数据的准确恢复带来了挑战。纠错算法的示意概览。中国农业科学院深圳农业基因组研究所供图为解决这一问题,研究人员基于DNA数字存储的错误偏好性,构建出了错误预测模型,在此基础上首次融入纠错码解码技术,开发出可将纠错数量提高至硬判决(物理学名词,译码器的输入只能是0或者1)2倍的软判决(物理学名词,不直接判决输出是1还是0,只给出“推测”)译码软件Derrick,预计可达到千亿亿亿字节规模的无损存储容量。...PC版:https://www.cnbeta.com.tw/articles/soft/1384773.htm手机版:https://m.cnbeta.com.tw/view/1384773.htm

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人