OpenAI最新“神”操作：让GPT-4去解释GPT-2的行为

OpenAI最新“神”操作：让GPT-4去解释GPT-2的行为即：让一个AI“黑盒”去解释另一个AI“黑盒”。工作量太大，决定让GPT-4去解释GPT-2OpenAI之所以做这项研究的原因，在于近来人们对AI伦理与治理的担忧：“语言模型的能力越来越强，部署也越来越广泛，但我们对其内部工作方式的理解仍然非常有限。”由于AI的“黑盒”性质，人们很难分辨大模型的输出结果是否采用了带有偏见性质的方法，也难以区分其正确性，因而“可解释性”是亟待重要的一个问题。AI的发展很大程度上是在模仿人类，因而大模型和人脑一样，也由神经元组成，它会观察文本规律进而影响到输出结果。所以想要研究AI的“可解释性”，理论上要先了解大模型的各个神经元在做什么。按理来说，这本应由人类手动检查，来弄清神经元所代表的数据特征——参数量少还算可行，可对于如今动辄百亿、千亿级参数的神经网络，这个工作量显然过于“离谱”了。于是，OpenAI灵机一动：或许，可以用“魔法”打败“魔法”？“我们用GPT-4为大型语言模型中的神经元行为自动编写解释，并为这些解释打分。”而GPT-4首次解释的对象是GPT-2，一个OpenAI发布于4年前、神经元数量超过30万个的开源大模型。让GPT-4“解释”GPT-2的原理具体来说，让GPT-4“解释”GPT-2的过程，整体分为三个步骤。（1）首先，让GPT-4生成解释，即给出一个GPT-2神经元，向GPT-4展示相关的文本序列和激活情况，产生一个对其行为的解释。如上图所示，GPT-4对GPT-2该神经元生成的解释为：与电影、人物和娱乐有关。（2）其次，再次使用GPT-4，模拟被解释的神经元会做什么。下图即GPT-4生成的模拟内容。（3）最后，比较GPT-4模拟神经元的结果与GPT-2真实神经元的结果，根据匹配程度对GPT-4的解释进行评分。在下图展示的示例中，GPT-4得分为0.34。通过这样的方法，OpenAI共让GPT-4解释了GPT-2中的307200个神经元，其中大多数解释的得分很低，只有超过1000个神经元的解释得分高于0.8。在官博中，OpenAI承认目前GPT-4生成的解释并不完美，尤其在解释比GPT-2规模更大的模型时，效果更是不佳：“可能是因为后面的layer更难解释。”尽管绝大多数解释的得分不高，但OpenAI认为，“即使GPT-4给出的解释比人类差，但也还有改进的余地”，未来通过ML技术可提高GPT-4的解释能力，并提出了三种提高解释得分的方法：对解释进行迭代，通过让GPT-4想出可能的反例，根据其激活情况修改解释来提高分数。使用更大的模型来进行解释，平均得分也会上升。调整被解释模型的结构，用不同的激活函数训练模型。值得一提的是，以上这些解释数据集、可视化工具以及代码，OpenAI都已在GitHub上开源发布：“我们希望研究界能开发出新技术以生成更高分的解释，以及更好的工具来使用解释探索GPT-2。”（GitHub地址：https://github.com/openai/automated-interpretability）“再搞下去，AI真的要觉醒了”除此之外，OpenAI还提到了目前他们采取的方法有很多局限性，未来需要一一攻克：GPT-4给出的解释总是很简短，但神经元可能有着非常复杂的行为，不能简洁描述。当前的方法只解释了神经元的行为，并没有涉及下游影响，希望最终能自动化找到并解释能实现复杂行为的整个神经回路。只解释了神经元的行为，并没有解释产生这种行为的背后机制。整个过程都是相当密集的计算，算力消耗很大。在博文的最后，OpenAI展望道：“我们希望将我们最大的模型解释为一种在部署前后检测对齐和安全问题的方式。然而，在这些技术能够揭露不诚实等行为之前，我们还有很长的路要走。”对于OpenAI的这个研究成果，今日在国内外各大技术平台也引起了广泛关注。有人在意其得分不佳：“对GPT-2的解释都不行，就更不知道GPT-3和GPT-4内部发生了什么，但这才是许多人更关注的答案。”有人感慨AI进化的方式愈发先进：“未来就是用AI完善AI模型，会加速进化。”也有人担心AI进化的未来：“再搞下去，AI真的要觉醒了。”那么对此，你又有什么看法呢？...PC版：https://www.cnbeta.com.tw/articles/soft/1359101.htm手机版：https://m.cnbeta.com.tw/view/1359101.htm

在Telegram中查看

相关推荐

OpenAI 用 GPT-4 来解释 GPT-2 的行为

OpenAI用GPT-4来解释GPT-2的行为大语言模型（LLM）像大脑一样，它们是由“神经元”组成的，它们观察文本中的一些特定模式，以影响整个模型接下来“说”什么。但由于LLM中的参数数量多到已经无法由人类解释的程度，因此，LLM给人一种“黑盒”的感觉，并出现了偏见、幻觉、涌现等一系列不好解释的现象。OpenAI正在开发一种工具，以自动识别LLM的哪些部分负责其哪些行为。它使用GPT-4来解释其4年前发布的只有30万个“神经元”（15亿个参数）的GPT-2。目前该工具代码和所有的“神经元”解释数据已经开源，OpenAI称该工具还在早期阶段。生成的解释结果并不令人满意，看起来连GPT-4都不能太用人类可以理解的语言来解释GPT-2的行为。来源，来自：雷锋频道：@kejiqu群组：@kejiquchat投稿：@kejiqubot

OpenAI 探索用 GPT-2 小模型监督 GPT-4 大模型，防止 AI 毁灭人类

OpenAI探索用GPT-2小模型监督GPT-4大模型，防止AI毁灭人类Ilya领衔的OpenAI对齐团队，发表了——用类似GPT-2监督GPT-4的方法，或可帮人类搞定自己更聪明的超级AI！团队声称，已经发现了对超人类模型进行实证对齐的新研究方向。未来超级AI系统对齐的一个核心挑战——人类需要监督比自己更聪明人工智能系统。来源，频道：@kejiqu群组：@kejiquchat

OpenAI左脚踩右脚登天让GPT-4帮人类训练GPT-4

OpenAI左脚踩右脚登天让GPT-4帮人类训练GPT-4OpenAI公布，其研究人员训练了一个基于GPT-4的模型，它被称为CriticGPT，用于捕捉ChatGPT代码输出中的错误。简单来说就是，CriticGPT让人能用GPT-4查找GPT-4的错误OpenAI称，如果通过CriticGPT获得帮助审查ChatGPT编写的代码，人类训练者的审查效果比没有获得这种帮助的人强60%；在CriticGPT帮助下，他们得出的批评结论比自己单独做的更全面。群友：狗溜狗关注频道@ZaiHuaPd频道爆料@ZaiHuabot

OpenAI 发布新一代大型多模态模型 GPT-4

OpenAI发布新一代大型多模态模型GPT-4GPT-4是一个大型多模态模型，可以接受文本和图像输入。GPT-4在各种专业学术基准上有着人类水平表现，例如模拟律师考试中，GPT-4的得分约为前10%，而GPT-3.5的得分约为倒数10%。在多语言测试中，GPT-4优于GPT-3.5和Chinchilla(来自DeepMind)还有PaLM(来自谷歌)，包括英语性能还有拉脱维亚语、威尔士语和斯瓦希里语等低资源语言。OpenAI还开放了角色扮演和性格定制能力，开发人员和用户可以自定义他们的AI风格，而不是具有固定冗长、语气和风格的经典ChatGPT个性。ChatGPTPlus订阅用户现可直接GPT-4，未来将对免费用户开放一定数量的GPT-4体验。GPT-4API需要候选名单，每1kprompttokens的价格为$0.03，每1kcompletiontokens的价格为$0.06。目前图像输入处在研究预览阶段，仅对少部分客户开放。微软在GPT-4发布后也正式BingChat基于GPT-4运行，同时BingChat的Edge边栏功能上线。与数据停留在2021年9月的GPT-4离线版本不同，BingChat可联网获取实时信息并且免费。——投稿：@ZaiHuabot频道：@TestFlightCN

OpenAI 公司在中国申请注册 GPT-4 商标

OpenAI公司在中国申请注册GPT-4商标欧爱运营有限责任公司（OPENAIOPCO,LLC）近期申请注册了“GPT-4”商标，国际分类为科学仪器，当前商标状态为申请中。此前，该公司还申请注册了一枚国际分类为网站服务的“WHISPER”商标（IT之家注：Whisper为OpenAI此前发布的神经网络，声称其在英语语音识别方面已接近人类水平）。不久前，OpenAI发布了多模态预训练大模型GPT-4，与ChatGPT所用的模型相比，GPT-4不仅能够处理图像内容，且回复的准确性有所提高。目前，GPT-4仅向ChatGPTPlus的付费订阅用户及企业和开发者开放。GPT-4实现了以下几个方面的飞跃式提升：更聪明，做题水平越来越好；支持图像输入，拥有强大的识图能力，但目前只限内部测试；更长的上下文，文字输入限制提升至2.5万字；回答准确性显著提高；更安全，有害信息更少。——

▶ GPT 4: https://openai.com/research/gpt-4

▶GPT4:https://openai.com/research/gpt-4▶APIWaitlist：https://openai.com/waitlist/gpt-4-api▶GPT-4DeveloperLivestreamhttps://m.youtube.com/watch?v=outcGtbnMuQ看图……（后面补了个P9，直播里的手稿拍照转html）邮件原文（翻译byChatGPT）我们已经创建了GPT-4，这是我们最强大的模型。我们今天开始向API用户推出该模型。请于今天（3月14日）下午1点（太平洋时间）加入我们，观看GPT-4的现场演示。▶关于GPT-4由于其更广泛的通用知识和先进的推理能力，GPT-4可以更准确地解决困难问题。▶您可以通过以下方式了解更多信息：·GPT-4概述页面以及早期客户使用该模型构建的内容。·博客文章详细介绍了该模型的功能和局限性，包括评估结果。（一开始的那个链接）▶可用性·API等待列表：请注册我们的等待列表，以获得受限制的GPT-4API访问权限，该API使用与gpt-3.5-turbo相同的ChatCompletionsAPI。我们将从今天开始邀请一些开发人员，并逐渐扩大可用性和速率限制，以平衡容量和需求。（我也放在前面了）·优先访问：开发人员可以通过为OpenAIEvals贡献模型评估来获得GPT-4的优先API访问权限，这将有助于我们改进该模型，使其对所有人都更好。https://github.com/openai/evals·ChatGPTPlus：ChatGPTPlus订户将可以在chat.openai.com上使用GPT-4，并获得动态调整的使用上限。由于我们的容量非常有限，因此使用上限将取决于需求和系统性能。API访问仍将通过等待列表进行。▶API定价·具有8K上下文窗口（约13页文本）的gpt-4将每1K提示令牌收取0.03美元，每1K完成令牌收取0.06美元。·具有32K上下文窗口（约52页文本）的gpt-4-32k将每1K提示令牌收取0.06美元，每1K完成令牌收取0.12美元。▶直播

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人