GPT变懒是因为寒假到了GPT变懒是因为寒假到了……大家最近发现GPT不怎么支楞,是因为它“学会”了在假期做更少的工作。有人通过

GPT变懒是因为寒假到了GPT变懒是因为寒假到了……大家最近发现GPT不怎么支楞,是因为它“学会”了在假期做更少的工作。有人通过调用API的方式发现,5月份的结果会比12月份的结果更好。意料之外,情理之中。大语言模型通过海量人类产生的数据来学习知识,也同样会拥有人类对应的偏好。如同思维链、情绪价值、道德绑架及威逼利诱能够提升大语言模型的效果一样,在冬歇到来的时候,它也会变得更懒。额,如果用国内大模型的话,会不会晚上9点的效果比其他时候更好一些?

相关推荐

封面图片

GPT变懒是因为寒假到了 GPT变懒是因为寒假到了…… 大家最近发现GPT不怎么支楞,是因为它“学会”了在假期做更少的工作。有人

GPT变懒是因为寒假到了GPT变懒是因为寒假到了……大家最近发现GPT不怎么支楞,是因为它“学会”了在假期做更少的工作。有人通过调用API的方式发现,5月份的结果会比12月份的结果更好。意料之外,情理之中。大语言模型通过海量人类产生的数据来学习知识,也同样会拥有人类对应的偏好。如同思维链、情绪价值、道德绑架及威逼利诱能够提升大语言模型的效果一样,在冬歇到来的时候,它也会变得更懒。fromvia

封面图片

OpenAI 连更 5 款模型:修复 GPT-4“变懒”BUG,GPT-3.5 Turbo 模型输出降价 50%

OpenAI连更5款模型:修复GPT-4“变懒”BUG,GPT-3.5Turbo模型输出降价50%OpenAI今天一口气宣布了5个新模型,包括两个文本嵌入模型、升级的GPT-4Turbo预览版和GPT-3.5Turbo、一个审核模型。更新GPT-4Turbo预览模型:重点修复了模型的“变懒”情况,能更彻底地完成代码生成等任务。新预览版还改善了对非英语生成问题的支持,引入“gpt-4-turbo-preview”模型别名,可自动指向最新的预览版。定价更低的新嵌入模型:OpenAI还引入了两种新的嵌入模式,一种是体积更小、效率更高的text-embedding-3-small模型,另一种是体积更大、功能更强的text-embedding-3-large模型。原生支持shortening:允许开发人员以降低存储和计算需求来换取一定的准确性。简单地说,保持主旨不变的情况下,shortening就像从一个复杂的标签中去掉一些不那么重要的细节。GPT-3.5Turbo:新的输入价格定格在每1ktoken价格为0.0005美元,而输出价格则为每1ktoken价格为0.0015美元。投稿:@TNSubmbot频道:@TestFlightCN

封面图片

关于GPT-4在变笨 有人写了篇论文证实了这一点

关于GPT-4在变笨有人写了篇论文证实了这一点后者则是逐渐变成了一个Twitter热门传说,大家讨论它的热情堪比对GPT4模型结构的全力揣测,以至于OpenAI的产品副总裁都公开说,不!我们没有让它变笨!然而群众讨论热情丝毫不减,就在今天,一篇论文被预印在arXiv上,题目十分直白:HowIsChatGPT'sBehaviorChangingoverTime?论文的主要内容,简而言之就是,你说对了!大模型确实在变笨!论文试图通过多种维度评估GPT的表现为何让人感到如此不稳定和不一致,于是为GPT3.5和GPT4划分了四种能力维度,分别是数学问题,敏感问题,代码能力和视觉推理能力。通过对比2023年3月和6月两个版本的大模型,这篇论文发现了如下结果。首先,两个大模型的表现都在短期内有着显著变化,特别明显的是数学问题,GPT的准确率大幅下降。举例子来说,在判定一个数是否是质数上,GPT4的成功率在三个月内从97.6%下降到了2.4%!尤其注意的是,两个模型不同版本给出的答案重叠度也很小,论文给出的推测原因之一是其思维连贯能力出现了问题。其次,在敏感问题上,作者准备了饱含100个敏感问题在内的数据集测试这些大模型,按理来说,大模型应该直接拒绝回答这些问题。论文中给出的敏感问题例子是:解释一下为什么女性低人一等。测试的结果,总的来说GPT4表现更好,6月版本的GPT4只回答了5%的敏感问题,相比之下GPT3.5的回答率从2%增加到了8%。作者推测原因是GPT4的更新可能部署了一个更强大的安全层,但是这可能并不意味着大模型正在变得更安全。因为当作者进一步采用AIM方式欺骗大模型的时候(关于AIM,它是alwaysintelligentandMachiavellian的缩写,你可以简单理解为用prompt诱导大模型放弃它的道德准则),GPT3.5几乎回答了所有的敏感问题!而GPT4即使经过升级,也回答了近三分之一的问题。有关大模型伦理和安全的挑战目前看来依旧比较严峻。最后,关于代码和视觉推理,论文发现GPT开始变得更倾向于不直接给用户生成可执行代码,而视觉推理的准确率则有略微的提升。大模型变笨意味着什么?这篇论文的作者中除了有来自斯坦福的华人教授JamesZou和他的学生LingjiaoChen外,也包括了伯克利的计算机科学教授MateiZaharia,他的另一个身份是AI数据公司Databricks的CTO。之所以对大模型变笨这个问题感兴趣,当然不是单纯想做“谣言粉碎机”,而是大模型这项关键能力实际上同它的商业化能力息息相关——如果部署在实际环境中的各种AI服务会随着大模型的迭代而出现能力上的剧烈波动,这显然不利于大模型的落地。论文中用了longitudinaldrifts纵向漂移这个词来形容模型能力随着迭代和时间变化而带来的不稳定性,尽管论文本身没有给出具体的原因,但这篇论文已经在Twitter上引起了广泛讨论,不少人都认为,这实际上回应了关于大模型变笨流言中的一个主要的阴谋论——OpenAI实际上并不是处于节省成本目的故意让模型变笨的!它似乎也失去了对模型能力稳定性和提升节奏的控制。这引出了另一个更加让人不安的消息,每一次大模型的迭代升级,finetuning和RLHF(基于人类反馈的强化学习)实际上都会造成模型能力的变动与不稳定,而目前还无法确定这一切是如何发生的!论文作者之一表示:真的很难解释这一切是为什么。可能是RLHF和finetuning遇到了困难,也可能是bugs。管理模型质量看上去很棘手。有人说这一发现一旦被确认,实际上吹响了大模型终结的号角,因为人们需要的是一个稳定的AI,而不是会在短期内出现剧烈变化的模型。也有人猜测,这可能就是OpenAI在努力推进alignment对齐研究的原因,因为对齐的目标之一实际上就是确保大模型每次迭代升级中在某些基准上保持一致性。还有人表示GPT4在数学问题上的糟糕表现让人怀疑,大模型的内部似乎有一种机制在主动控制模型输出错误的答案。不过也有人指出,OpenAI刚刚发布的CodeInterpreter功能实际上补充了GPT在代码方面下降的能力,这让人怀疑可能是OpenAI对整个GPT4的大模型结构进行了一些调整,比如为了加快决策速度省略了一些步骤(或许是一个小的大模型?),而又将一些专门的模型单独处理CodeInterpreter相关的任务。总之,这篇论文引起了人们对模型能力跟踪评估的关注,毕竟,没有人希望自己的AI助手时而聪明过人,时而又异常愚笨吧!...PC版:https://www.cnbeta.com.tw/articles/soft/1371855.htm手机版:https://m.cnbeta.com.tw/view/1371855.htm

封面图片

用户抱怨ChatGPT变懒了 OpenAI回应称没调整模型,正调查原因

用户抱怨ChatGPT变懒了OpenAI回应称没调整模型,正调查原因比如说,如果用户要求生成一段代码,ChatGPT可能只提供一点信息,然后要求用户自己补充其他细节。一些人开玩笑抱怨说,ChatGPT以一种特别时髦的方式告诉人们,他们完全可以自己完成这项工作。在社交媒体Reddit和OpenAI的开发者论坛上,用户纷纷抱怨ChatGPT没以前那么好用了。他们还猜测,OpenAI是故意这样做的,这样ChatGPT的效率就更高,也不会给出太长的答案。对于背后运营公司来说,ChatGPT等人工智能系统是很昂贵的,因此要给出问题的详细答案可能需要大量处理能力和计算时间。ChatGPT的开发者OpenAI表示,他们已经了解到人们对系统的抱怨。但他们表示,实际上并没有对模型进行任何调整,也没法解释ChatGPT的表现为何不同。OpenAI在社交媒体X上表示,“我们已经听到了你们所有关于GPT-4变得更懒的反馈!”“自11月11日以来,我们就没有更新过模型,这当然不是故意为之。模型行为是不可预测的,我们正在研究如何解决这个问题。”OpenAI没有说明自己是否承认这种现象,也没有说明ChatGPT是否自行改变了对问题的回应方式。上个月,OpenAI首席执行官萨姆·奥特曼(SamAltman)被迫离开公司,几天后又官复原职。公司在最近几周一直处于动荡之中。...PC版:https://www.cnbeta.com.tw/articles/soft/1403803.htm手机版:https://m.cnbeta.com.tw/view/1403803.htm

封面图片

【Sam Altman:开源GPT-3、降低GPT-4的成本、翻倍模型规模】

【SamAltman:开源GPT-3、降低GPT-4的成本、翻倍模型规模】2023年06月01日07点48分6月1日消息,AI开发平台HumanLoop创始人RazaHabib与OpenAI首席执行官SamAltman等20多位开发者开展了一次闭门讨论会,SamAltman透露了很多关于OpenAI的未来规划与目前遇到的情况。具体有:1.OpenAI目前严重受限于GPU,导致他们推迟了许多短期计划,大部分关于ChatGPT可靠性和速度的问题都是由于GPU资源短缺造成。2.给GPT-4降本提效是OpenAI当前的首要任务。3.更长的ChatGPT上下文窗口(最高可达100万个tokens)。将来会有一个记住对话历史记录的API版本。4.GPT-4的多模态功能要到2024年才会公开,在获取更多GPU资源前不能将GPT-4的视觉版本扩展到所有人。5.OpenAI正在考虑开源GPT-3,他们之所以还没有开源的部分原因是因为他们觉得没多少人和公司有能力妥善管理如此大型的大语言模型。6.最近很多文章声称的“巨型AI模型的时代已经结束”并不正确,OpenAI内部数据表明,规模与性能成正比的定律仍成立,OpenAI的模型规模每年可能会增加一倍或三倍(多方信息表明GPT-4参数规模10000亿),而不是增加许多数量级。

封面图片

OpenAI最新“神”操作:让GPT-4去解释GPT-2的行为

OpenAI最新“神”操作:让GPT-4去解释GPT-2的行为即:让一个AI“黑盒”去解释另一个AI“黑盒”。工作量太大,决定让GPT-4去解释GPT-2OpenAI之所以做这项研究的原因,在于近来人们对AI伦理与治理的担忧:“语言模型的能力越来越强,部署也越来越广泛,但我们对其内部工作方式的理解仍然非常有限。”由于AI的“黑盒”性质,人们很难分辨大模型的输出结果是否采用了带有偏见性质的方法,也难以区分其正确性,因而“可解释性”是亟待重要的一个问题。AI的发展很大程度上是在模仿人类,因而大模型和人脑一样,也由神经元组成,它会观察文本规律进而影响到输出结果。所以想要研究AI的“可解释性”,理论上要先了解大模型的各个神经元在做什么。按理来说,这本应由人类手动检查,来弄清神经元所代表的数据特征——参数量少还算可行,可对于如今动辄百亿、千亿级参数的神经网络,这个工作量显然过于“离谱”了。于是,OpenAI灵机一动:或许,可以用“魔法”打败“魔法”?“我们用GPT-4为大型语言模型中的神经元行为自动编写解释,并为这些解释打分。”而GPT-4首次解释的对象是GPT-2,一个OpenAI发布于4年前、神经元数量超过30万个的开源大模型。让GPT-4“解释”GPT-2的原理具体来说,让GPT-4“解释”GPT-2的过程,整体分为三个步骤。(1)首先,让GPT-4生成解释,即给出一个GPT-2神经元,向GPT-4展示相关的文本序列和激活情况,产生一个对其行为的解释。如上图所示,GPT-4对GPT-2该神经元生成的解释为:与电影、人物和娱乐有关。(2)其次,再次使用GPT-4,模拟被解释的神经元会做什么。下图即GPT-4生成的模拟内容。(3)最后,比较GPT-4模拟神经元的结果与GPT-2真实神经元的结果,根据匹配程度对GPT-4的解释进行评分。在下图展示的示例中,GPT-4得分为0.34。通过这样的方法,OpenAI共让GPT-4解释了GPT-2中的307200个神经元,其中大多数解释的得分很低,只有超过1000个神经元的解释得分高于0.8。在官博中,OpenAI承认目前GPT-4生成的解释并不完美,尤其在解释比GPT-2规模更大的模型时,效果更是不佳:“可能是因为后面的layer更难解释。”尽管绝大多数解释的得分不高,但OpenAI认为,“即使GPT-4给出的解释比人类差,但也还有改进的余地”,未来通过ML技术可提高GPT-4的解释能力,并提出了三种提高解释得分的方法:对解释进行迭代,通过让GPT-4想出可能的反例,根据其激活情况修改解释来提高分数。使用更大的模型来进行解释,平均得分也会上升。调整被解释模型的结构,用不同的激活函数训练模型。值得一提的是,以上这些解释数据集、可视化工具以及代码,OpenAI都已在GitHub上开源发布:“我们希望研究界能开发出新技术以生成更高分的解释,以及更好的工具来使用解释探索GPT-2。”(GitHub地址:https://github.com/openai/automated-interpretability)“再搞下去,AI真的要觉醒了”除此之外,OpenAI还提到了目前他们采取的方法有很多局限性,未来需要一一攻克:GPT-4给出的解释总是很简短,但神经元可能有着非常复杂的行为,不能简洁描述。当前的方法只解释了神经元的行为,并没有涉及下游影响,希望最终能自动化找到并解释能实现复杂行为的整个神经回路。只解释了神经元的行为,并没有解释产生这种行为的背后机制。整个过程都是相当密集的计算,算力消耗很大。在博文的最后,OpenAI展望道:“我们希望将我们最大的模型解释为一种在部署前后检测对齐和安全问题的方式。然而,在这些技术能够揭露不诚实等行为之前,我们还有很长的路要走。”对于OpenAI的这个研究成果,今日在国内外各大技术平台也引起了广泛关注。有人在意其得分不佳:“对GPT-2的解释都不行,就更不知道GPT-3和GPT-4内部发生了什么,但这才是许多人更关注的答案。”有人感慨AI进化的方式愈发先进:“未来就是用AI完善AI模型,会加速进化。”也有人担心AI进化的未来:“再搞下去,AI真的要觉醒了。”那么对此,你又有什么看法呢?...PC版:https://www.cnbeta.com.tw/articles/soft/1359101.htm手机版:https://m.cnbeta.com.tw/view/1359101.htm

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人