OpenAI 探索用 GPT-2 小模型监督 GPT-4 大模型，防止 AI 毁灭人类

OpenAI探索用GPT-2小模型监督GPT-4大模型，防止AI毁灭人类Ilya领衔的OpenAI对齐团队，发表了——用类似GPT-2监督GPT-4的方法，或可帮人类搞定自己更聪明的超级AI！团队声称，已经发现了对超人类模型进行实证对齐的新研究方向。未来超级AI系统对齐的一个核心挑战——人类需要监督比自己更聪明人工智能系统。来源，频道：@kejiqu群组：@kejiquchat

在Telegram中查看

相关推荐

OpenAI 证实即便是超人工智能也能被人类有效控制

OpenAI证实即便是超人工智能也能被人类有效控制OpenAI认为超越人类的人工智能将在10年内到来，而人类能否监督比自身更聪明的模型一直是个被广泛讨论的话题。OpenAI的超级对齐团队给出了一个初步实证答案——可以。今天的情况是强到弱泛化，即人类(强老师)指导GPT-4(弱学生)学习。为了研究弱到强泛化的未来，OpenAI研究了一个简单的类比:小模型能监督大模型吗？结果证明，GPT-2监督的GPT-4达到了由人类监督的GPT-3.5性能。超级对齐团队测试后发现，许多简单的方法可以大大改进弱到强的泛化能力，比如鼓励强模型更加自信，包括在必要时自信地反对弱监督者的观点。又比如先对齐一个稍微超人的模型，然后用它对齐一个更智能的模型，而不是直接对齐非常超人的模型。投稿：@TNSubmbot频道：@TestFlightCN

中信建投：OpenAI “超级对齐” 取得进展，由弱到强泛化实现 AI 可控

中信建投：OpenAI“超级对齐”取得进展，由弱到强泛化实现AI可控中信建投研报指出，12月15日，OpenAI“超级对齐”团队发布了成立以来的首篇论文，开辟了对超级模型进行实证对齐的新研究方向。OpenAI认为，比人类聪明得多的人工智能（超级智能）可以在未来十年之内发展出来，然而如何正确的引导和控制超人的人工智能系统仍然没有得到很好的解决，解决AI的可控问题对于如何确保最先进的人工智能系统始终安全并造福人类至关重要。在最新的研究中，OpenAI实现了从弱模型监督强模型的任务，OpenAI使用GPT-2模型来激发GPT-4的大部分能力，使其达到接近GPT-3.5级别的性能。实现了“弱到强泛化”（Weak-to-stronggeneralization），即让小模型监督大模型，为“超级对齐”提供了切实可行的技术路线。预期OpenAI将在“超级对齐”研究中取得持续突破，我们看好安全可控下的大模型行业发展前景。

OpenAI 用 GPT-4 来解释 GPT-2 的行为

OpenAI用GPT-4来解释GPT-2的行为大语言模型（LLM）像大脑一样，它们是由“神经元”组成的，它们观察文本中的一些特定模式，以影响整个模型接下来“说”什么。但由于LLM中的参数数量多到已经无法由人类解释的程度，因此，LLM给人一种“黑盒”的感觉，并出现了偏见、幻觉、涌现等一系列不好解释的现象。OpenAI正在开发一种工具，以自动识别LLM的哪些部分负责其哪些行为。它使用GPT-4来解释其4年前发布的只有30万个“神经元”（15亿个参数）的GPT-2。目前该工具代码和所有的“神经元”解释数据已经开源，OpenAI称该工具还在早期阶段。生成的解释结果并不令人满意，看起来连GPT-4都不能太用人类可以理解的语言来解释GPT-2的行为。来源，来自：雷锋频道：@kejiqu群组：@kejiquchat投稿：@kejiqubot

OpenAI最新“神”操作：让GPT-4去解释GPT-2的行为

OpenAI最新“神”操作：让GPT-4去解释GPT-2的行为即：让一个AI“黑盒”去解释另一个AI“黑盒”。工作量太大，决定让GPT-4去解释GPT-2OpenAI之所以做这项研究的原因，在于近来人们对AI伦理与治理的担忧：“语言模型的能力越来越强，部署也越来越广泛，但我们对其内部工作方式的理解仍然非常有限。”由于AI的“黑盒”性质，人们很难分辨大模型的输出结果是否采用了带有偏见性质的方法，也难以区分其正确性，因而“可解释性”是亟待重要的一个问题。AI的发展很大程度上是在模仿人类，因而大模型和人脑一样，也由神经元组成，它会观察文本规律进而影响到输出结果。所以想要研究AI的“可解释性”，理论上要先了解大模型的各个神经元在做什么。按理来说，这本应由人类手动检查，来弄清神经元所代表的数据特征——参数量少还算可行，可对于如今动辄百亿、千亿级参数的神经网络，这个工作量显然过于“离谱”了。于是，OpenAI灵机一动：或许，可以用“魔法”打败“魔法”？“我们用GPT-4为大型语言模型中的神经元行为自动编写解释，并为这些解释打分。”而GPT-4首次解释的对象是GPT-2，一个OpenAI发布于4年前、神经元数量超过30万个的开源大模型。让GPT-4“解释”GPT-2的原理具体来说，让GPT-4“解释”GPT-2的过程，整体分为三个步骤。（1）首先，让GPT-4生成解释，即给出一个GPT-2神经元，向GPT-4展示相关的文本序列和激活情况，产生一个对其行为的解释。如上图所示，GPT-4对GPT-2该神经元生成的解释为：与电影、人物和娱乐有关。（2）其次，再次使用GPT-4，模拟被解释的神经元会做什么。下图即GPT-4生成的模拟内容。（3）最后，比较GPT-4模拟神经元的结果与GPT-2真实神经元的结果，根据匹配程度对GPT-4的解释进行评分。在下图展示的示例中，GPT-4得分为0.34。通过这样的方法，OpenAI共让GPT-4解释了GPT-2中的307200个神经元，其中大多数解释的得分很低，只有超过1000个神经元的解释得分高于0.8。在官博中，OpenAI承认目前GPT-4生成的解释并不完美，尤其在解释比GPT-2规模更大的模型时，效果更是不佳：“可能是因为后面的layer更难解释。”尽管绝大多数解释的得分不高，但OpenAI认为，“即使GPT-4给出的解释比人类差，但也还有改进的余地”，未来通过ML技术可提高GPT-4的解释能力，并提出了三种提高解释得分的方法：对解释进行迭代，通过让GPT-4想出可能的反例，根据其激活情况修改解释来提高分数。使用更大的模型来进行解释，平均得分也会上升。调整被解释模型的结构，用不同的激活函数训练模型。值得一提的是，以上这些解释数据集、可视化工具以及代码，OpenAI都已在GitHub上开源发布：“我们希望研究界能开发出新技术以生成更高分的解释，以及更好的工具来使用解释探索GPT-2。”（GitHub地址：https://github.com/openai/automated-interpretability）“再搞下去，AI真的要觉醒了”除此之外，OpenAI还提到了目前他们采取的方法有很多局限性，未来需要一一攻克：GPT-4给出的解释总是很简短，但神经元可能有着非常复杂的行为，不能简洁描述。当前的方法只解释了神经元的行为，并没有涉及下游影响，希望最终能自动化找到并解释能实现复杂行为的整个神经回路。只解释了神经元的行为，并没有解释产生这种行为的背后机制。整个过程都是相当密集的计算，算力消耗很大。在博文的最后，OpenAI展望道：“我们希望将我们最大的模型解释为一种在部署前后检测对齐和安全问题的方式。然而，在这些技术能够揭露不诚实等行为之前，我们还有很长的路要走。”对于OpenAI的这个研究成果，今日在国内外各大技术平台也引起了广泛关注。有人在意其得分不佳：“对GPT-2的解释都不行，就更不知道GPT-3和GPT-4内部发生了什么，但这才是许多人更关注的答案。”有人感慨AI进化的方式愈发先进：“未来就是用AI完善AI模型，会加速进化。”也有人担心AI进化的未来：“再搞下去，AI真的要觉醒了。”那么对此，你又有什么看法呢？...PC版：https://www.cnbeta.com.tw/articles/soft/1359101.htm手机版：https://m.cnbeta.com.tw/view/1359101.htm

OpenAI左脚踩右脚登天让GPT-4帮人类训练GPT-4

OpenAI左脚踩右脚登天让GPT-4帮人类训练GPT-4OpenAI公布，其研究人员训练了一个基于GPT-4的模型，它被称为CriticGPT，用于捕捉ChatGPT代码输出中的错误。简单来说就是，CriticGPT让人能用GPT-4查找GPT-4的错误OpenAI称，如果通过CriticGPT获得帮助审查ChatGPT编写的代码，人类训练者的审查效果比没有获得这种帮助的人强60%；在CriticGPT帮助下，他们得出的批评结论比自己单独做的更全面。群友：狗溜狗关注频道@ZaiHuaPd频道爆料@ZaiHuabot

GPT-4论文竟有隐藏线索：GPT-5或完成训练、OpenAI两年内接近AGI

GPT-4论文竟有隐藏线索：GPT-5或完成训练、OpenAI两年内接近AGI1.ARC(AlignmentResearchCenter)是一个非营利性研究机构，其使命是使未来的机器学习系统与人类利益保持一致。ARC的目标是训练AI模型，使其不会操纵、欺骗甚至伤害人类）。OpenAI曾经选择让ARC去测试评估GPT-4会不会主动避免自己被“挂掉”，说明此前必定出现过这种情况。OpenAICEOSamAltman认为人类需要对AI做更多的监管，以符合人类的利益。OpenAI担忧科技竞赛会导致安全标准的下降、不良规范的扩散、AI发展进程的加速，加剧与人工智能相关的社会风险。但是微软CEO和CTO希望OpenAI的模型能尽快让用户用起来。可以肯定的一点是OpenAI和微软在这件事的想法是相悖的。OpenAI雇佣了预测专家，来预测当他们部署了GPT-4之后会带来怎样的风险。“超级预测员”建议将GPT-4部署时间推迟6个月，也就是今年秋季左右；但很显然，OpenAI并没有采纳他们的建议。OpenAI这么做的原因，可能是来自微软的压力。2.OpenAI会协助超越它的公司：OpenAI做出了一个非常大胆的承诺："如果另一家公司在我们之前实现了接近AGI（通用人工智能），那我们承诺不会跟它做竞争，相反，会协助完成那个项目。但这种情况发生的条件，可能是另一家公司需得在未来两年内，成功接近AGI的机会在一半或以上"而这里提到的AGI，OpenAI和Altam在官方博客中已经给出了定义——普遍比人类更聪明，并且有益于全人类的人工智能系统。3.GPT-4确实已经达到了人类的常识水平。博主在论文中找到了相关数据，在“人类”那一栏中，分数分布在了94-96.5之间。而GPT-4的95.3，便正好在这个区间之间。4.OpenAI在去年年底推出ChatGPT的时候，已经有了GPT-4。GPT-5可能已经完成训练5.像ChatGPT、GitHubCopilot这些工具导致某些工作的自动化。GPT-4的能力可以在某些特定领域中以人类10倍甚至更高的效率来完成。5.OpenAI让GPT-4学会拒绝的方法，叫做基于规则的奖励模型（RBRMs）。这种方法的工作流程：给GPT-4一组要遵守的原则，如果模型遵守了这些原则，那么就会提供相应的奖励。他认为OpenAI正在用人工智能的力量，让AI模型朝着符合人类原则的方向发展。()参考链接：[1]https://www.youtube.com/watch?v=ufQmq6X22rM[2]https://cdn.openai.com/papers/gpt-4.pdf投稿：@ZaiHuabot频道：@TestFlightCN

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人