OpenAI 用 GPT-4 来解释 GPT-2 的行为

OpenAI用GPT-4来解释GPT-2的行为大语言模型(LLM)像大脑一样,它们是由“神经元”组成的,它们观察文本中的一些特定模式,以影响整个模型接下来“说”什么。但由于LLM中的参数数量多到已经无法由人类解释的程度,因此,LLM给人一种“黑盒”的感觉,并出现了偏见、幻觉、涌现等一系列不好解释的现象。OpenAI正在开发一种工具,以自动识别LLM的哪些部分负责其哪些行为。它使用GPT-4来解释其4年前发布的只有30万个“神经元”(15亿个参数)的GPT-2。目前该工具代码和所有的“神经元”解释数据已经开源,OpenAI称该工具还在早期阶段。生成的解释结果并不令人满意,看起来连GPT-4都不能太用人类可以理解的语言来解释GPT-2的行为。来源,来自:雷锋频道:@kejiqu群组:@kejiquchat投稿:@kejiqubot

相关推荐

封面图片

OpenAI最新“神”操作:让GPT-4去解释GPT-2的行为

OpenAI最新“神”操作:让GPT-4去解释GPT-2的行为即:让一个AI“黑盒”去解释另一个AI“黑盒”。工作量太大,决定让GPT-4去解释GPT-2OpenAI之所以做这项研究的原因,在于近来人们对AI伦理与治理的担忧:“语言模型的能力越来越强,部署也越来越广泛,但我们对其内部工作方式的理解仍然非常有限。”由于AI的“黑盒”性质,人们很难分辨大模型的输出结果是否采用了带有偏见性质的方法,也难以区分其正确性,因而“可解释性”是亟待重要的一个问题。AI的发展很大程度上是在模仿人类,因而大模型和人脑一样,也由神经元组成,它会观察文本规律进而影响到输出结果。所以想要研究AI的“可解释性”,理论上要先了解大模型的各个神经元在做什么。按理来说,这本应由人类手动检查,来弄清神经元所代表的数据特征——参数量少还算可行,可对于如今动辄百亿、千亿级参数的神经网络,这个工作量显然过于“离谱”了。于是,OpenAI灵机一动:或许,可以用“魔法”打败“魔法”?“我们用GPT-4为大型语言模型中的神经元行为自动编写解释,并为这些解释打分。”而GPT-4首次解释的对象是GPT-2,一个OpenAI发布于4年前、神经元数量超过30万个的开源大模型。让GPT-4“解释”GPT-2的原理具体来说,让GPT-4“解释”GPT-2的过程,整体分为三个步骤。(1)首先,让GPT-4生成解释,即给出一个GPT-2神经元,向GPT-4展示相关的文本序列和激活情况,产生一个对其行为的解释。如上图所示,GPT-4对GPT-2该神经元生成的解释为:与电影、人物和娱乐有关。(2)其次,再次使用GPT-4,模拟被解释的神经元会做什么。下图即GPT-4生成的模拟内容。(3)最后,比较GPT-4模拟神经元的结果与GPT-2真实神经元的结果,根据匹配程度对GPT-4的解释进行评分。在下图展示的示例中,GPT-4得分为0.34。通过这样的方法,OpenAI共让GPT-4解释了GPT-2中的307200个神经元,其中大多数解释的得分很低,只有超过1000个神经元的解释得分高于0.8。在官博中,OpenAI承认目前GPT-4生成的解释并不完美,尤其在解释比GPT-2规模更大的模型时,效果更是不佳:“可能是因为后面的layer更难解释。”尽管绝大多数解释的得分不高,但OpenAI认为,“即使GPT-4给出的解释比人类差,但也还有改进的余地”,未来通过ML技术可提高GPT-4的解释能力,并提出了三种提高解释得分的方法:对解释进行迭代,通过让GPT-4想出可能的反例,根据其激活情况修改解释来提高分数。使用更大的模型来进行解释,平均得分也会上升。调整被解释模型的结构,用不同的激活函数训练模型。值得一提的是,以上这些解释数据集、可视化工具以及代码,OpenAI都已在GitHub上开源发布:“我们希望研究界能开发出新技术以生成更高分的解释,以及更好的工具来使用解释探索GPT-2。”(GitHub地址:https://github.com/openai/automated-interpretability)“再搞下去,AI真的要觉醒了”除此之外,OpenAI还提到了目前他们采取的方法有很多局限性,未来需要一一攻克:GPT-4给出的解释总是很简短,但神经元可能有着非常复杂的行为,不能简洁描述。当前的方法只解释了神经元的行为,并没有涉及下游影响,希望最终能自动化找到并解释能实现复杂行为的整个神经回路。只解释了神经元的行为,并没有解释产生这种行为的背后机制。整个过程都是相当密集的计算,算力消耗很大。在博文的最后,OpenAI展望道:“我们希望将我们最大的模型解释为一种在部署前后检测对齐和安全问题的方式。然而,在这些技术能够揭露不诚实等行为之前,我们还有很长的路要走。”对于OpenAI的这个研究成果,今日在国内外各大技术平台也引起了广泛关注。有人在意其得分不佳:“对GPT-2的解释都不行,就更不知道GPT-3和GPT-4内部发生了什么,但这才是许多人更关注的答案。”有人感慨AI进化的方式愈发先进:“未来就是用AI完善AI模型,会加速进化。”也有人担心AI进化的未来:“再搞下去,AI真的要觉醒了。”那么对此,你又有什么看法呢?...PC版:https://www.cnbeta.com.tw/articles/soft/1359101.htm手机版:https://m.cnbeta.com.tw/view/1359101.htm

封面图片

OpenAI 探索用 GPT-2 小模型监督 GPT-4 大模型,防止 AI 毁灭人类

OpenAI探索用GPT-2小模型监督GPT-4大模型,防止AI毁灭人类Ilya领衔的OpenAI对齐团队,发表了——用类似GPT-2监督GPT-4的方法,或可帮人类搞定自己更聪明的超级AI!团队声称,已经发现了对超人类模型进行实证对齐的新研究方向。未来超级AI系统对齐的一个核心挑战——人类需要监督比自己更聪明人工智能系统。来源,频道:@kejiqu群组:@kejiquchat

封面图片

OpenAI 公司在中国申请注册 GPT-4 商标

OpenAI公司在中国申请注册GPT-4商标欧爱运营有限责任公司(OPENAIOPCO,LLC)近期申请注册了“GPT-4”商标,国际分类为科学仪器,当前商标状态为申请中。此前,该公司还申请注册了一枚国际分类为网站服务的“WHISPER”商标(IT之家注:Whisper为OpenAI此前发布的神经网络,声称其在英语语音识别方面已接近人类水平)。不久前,OpenAI发布了多模态预训练大模型GPT-4,与ChatGPT所用的模型相比,GPT-4不仅能够处理图像内容,且回复的准确性有所提高。目前,GPT-4仅向ChatGPTPlus的付费订阅用户及企业和开发者开放。GPT-4实现了以下几个方面的飞跃式提升:更聪明,做题水平越来越好;支持图像输入,拥有强大的识图能力,但目前只限内部测试;更长的上下文,文字输入限制提升至2.5万字;回答准确性显著提高;更安全,有害信息更少。——

封面图片

Carbon Health 用 OpenAI 的 GPT-4 写医疗记录

CarbonHealth用OpenAI的GPT-4写医疗记录旗下有逾百家诊所的医疗连锁机构CarbonHealth利用OpenAI的GPT-4根据医生和病人之间的对话自动生成医疗记录。如果病人同意记录与医生的对话,那么录音首先传输到亚马逊的AWSTranscribeMedical云服务,将录音转成文本。转录文本和病人的医疗数据将传输给机器学习模型,名为Carby的AI工具将总结诊断中的重要信息。CarbonHealth称AI工具能在4分钟内生成诊断摘要,而医生需要耗费16分钟,因此医生将有时间诊断更多病人。CarbonHealth表示,88%的自动生成记录不需要编辑就能接受。CarbonHealth旗下的一个诊所在试用该工具后治疗的病人数量增加了30%。来源,来自:雷锋频道:@kejiqu群组:@kejiquchat投稿:@kejiqubot

封面图片

OpenAI CEO 推文暗示 GPT-4 可能会迎来升级

OpenAICEO推文暗示GPT-4可能会迎来升级OpenAI首席执行官SamAltman在X平台发文表示,ChatGPT-4“在其新年计划方面起步缓慢,但现在应该不再那么懒惰了”。这一声明暗示了GPT-4的大型语言模型(LLM)可能会升级,特别是在最近出现了一系列投诉之后。此前据一些用户反馈称,GPT-4无法完成在某些时间提示执行的任务,甚至会出现服务中断的情况。OpenAIGPT-4开发团队解释说,该聊天机器人自11月11日以来就没有更新过,因此Altman的最新推文或在暗示GPT-4可能会进行升级。

封面图片

【OpenAI CEO推文暗示GPT-4可能会迎来升级】

【OpenAICEO推文暗示GPT-4可能会迎来升级】2024年02月05日02点13分老不正经报道,OpenAI首席执行官SamAltman在X平台发文表示,ChatGPT-4“在其新年计划方面起步缓慢,但现在应该不再那么懒惰了”。这一声明暗示了GPT-4的大型语言模型(LLM)可能会升级,特别是在最近出现了一系列投诉之后。此前据一些用户反馈称,GPT-4无法完成在某些时间提示执行的任务,甚至会出现服务中断的情况。OpenAIGPT-4开发团队解释说,该聊天机器人自11月11日以来就没有更新过,因此Altman的最新推文或在暗示GPT-4可能会进行升级。

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人