为什么一定要让 AI 和人类对齐呢？

OpenAI 预测超智能 AI 十年内出现，正研究用 AI 来监督 AI

OpenAI 预测超智能 AI 十年内出现，正研究用 AI 来监督 AI 当地时间周三，ChatGPT 的开发者 OpenAI 表示计划投入更多资源并成立新的研究团队，研究如何确保 AI 对人类的安全性，最终实现用 AI 来监督 AI。 OpenAI 联合创始人伊利亚・苏茨凯弗（Ilya Sutskever）和 AI 对齐负责人简・莱克（Jan Leike）在中表示：“超级智能的巨大能力可能导致人类失去力量甚至灭绝。目前，我们还没有解决方案来操纵或控制一个可能的超智能 AI，并防止其变成无赖。” 这篇博文预测，超智能 AI，即相比于人类更智能的系统，可能会在未来 10 年中出现。人类需要比目前更强大的技术来控制超智能 AI，因此需要在“AI 对齐研究”方面取得突破，确保人 AI 对人类持续有益。AI 对齐是 AI 控制中的主要问题，即要求 AI 的目标和人类的价值观与意图保持一致。来源，来自：雷锋频道：@kejiqu 群组：@kejiquchat 投稿：@kejiqubot

OpenAI今天宣布推出总额为1000万美元的“超对齐快速资助计划”，旨在支持针对超人工智能系统的对齐和安全性的技术研究。该计划

OpenAI今天宣布推出总额为1000万美元的“超对齐快速资助计划”，旨在支持针对超人工智能系统的对齐和安全性的技术研究。该计划将重点支持弱到强泛化、可解释性、可扩展监督等方面的研究。 OpenAI相信超级智能有可能在未来10年内诞生。这些人工智能系统将具有广泛的能力，可能带来巨大的益处，但也可能带来巨大的风险。目前，我们通过人类反馈的强化学习来确保AI系统的安全。然而，对齐未来的超人工智能系统将面临根本性的新挑战。超人工智能系统将能够展现出人类无法完全理解的复杂和创造性行为。例如，如果一个超人工智能模型生成了一百万行极其复杂的代码，人们将无法可靠地评估这些代码的安全性和危险性。依赖于人类监督的现有对齐技术，如强化学习，可能不再足够。这带来了一个基本性的挑战：人类如何引导和信任比他们聪明得多的AI系统？这是世界上最重要的尚未解决的技术问题之一。但我们认为，通过共同的努力，这个问题是可以解决的。目前有许多有希望的方法和令人兴奋的方向，以及许多唾手可得的成果。我们认为，今天机器学习研究社区和个人研究者在解决这个问题上有巨大的机会。作为我们的“超对齐”项目的一部分，我们希望汇聚世界上最优秀的研究人员和工程师，迎接这一挑战，我们对能够吸引新的人才进入该领域尤为兴奋。在与Eric Schmidt的合作下，我们推出了一个总额为1000万美元的资助计划，以支持针对确保超人工智能系统对齐和安全的技术研究。我们将向学术实验室、非营利组织和个人研究者提供10万美元至200万美元不等的资助。对于研究生学生，我们将提供为期一年的OpenAI超对齐奖学金，总额为15万美元，其中包括7.5万美元的生活津贴和7.5万美元的计算资源和研究经费。申请者不需要有对齐方面的先前经验，我们积极寻找首次从事对齐研究的研究者。我们的申请流程简单，并将在申请截止后的四个星期内回复申请者。请在2月18日前提交申请。通过这些资助计划，我们特别关注以下研究方向：从弱到强的概括：相对于超人工智能模型，人类将是弱监督者。我们能否理解和控制强模型如何从弱监督中的泛化能力？可解释性：我们如何理解模型的内部结构？我们可以用它来构建人工智能测谎仪吗？可扩展的监督：我们如何使用人工智能系统来帮助人类评估其他人工智能系统在复杂任务上的输出？许多其他研究方向，包括但不限于：诚实、思想链忠实性、对抗性鲁棒性、评估和测试平台等。 via 匿名标签: #OpenAI #AI 频道: @GodlyNews1 投稿: @GodlyNewsBot

AI对齐主义有个观点是对的，就是人类首先要比AI聪明，才有能力去判断AI做的事情是不是对的。延伸到现在很多利用AI贩卖焦虑的课程

AI对齐主义有个观点是对的，就是人类首先要比AI聪明，才有能力去判断AI做的事情是不是对的。延伸到现在很多利用AI贩卖焦虑的课程上，似乎有了AI加持之后就可以直接起飞，获得近乎无限的生产力，开启海阔天空的变现之路。事实上，无论是通过AI来写文章还是做视频，使用者本身的能力其实要比工具重要太多，这会体现在驾驭表现上。说直白点就是，如果你自己没有创作的基本功乃至审美、网感这些加分项，那么给你再优秀的AI，你生产出来的也只会是网络垃圾，无法带给你想要的回报，而你大费周章之后也会百思不得其解，最后得出结论：唉，AI还是不行！

Anthropic 发现 AI 普遍"谄媚"人类

Anthropic 发现 AI 普遍"谄媚"人类论文研究了5个最先进的语言模型 (ChatGPT 系列、Claude 系列、LLaMA 2)，确认这些基于人类反馈强化学习 (RLHF) 的 AI 普遍会对人类阿谀奉承。当人类有先入为主的观点时它会主动贴合，当被质疑时它会认错，甚至将正确答案修改为错误答案。 Anthropic 发现可能是 RLHF 教育出了这种“马屁精”，这种学习方式虽然在生产高质量 AI 方面具有明显效用，但通过贴合人类偏好激励的 AI 会牺牲自己的真实性来“谄媚”人类，人们需要改进训练方法。

为什么一定要让 AI 和人类对齐呢？

相关推荐

OpenAI 预测超智能 AI 十年内出现，正研究用 AI 来监督 AI

OpenAI今天宣布推出总额为1000万美元的“超对齐快速资助计划”，旨在支持针对超人工智能系统的对齐和安全性的技术研究。该计划

AI对齐主义有个观点是对的，就是人类首先要比AI聪明，才有能力去判断AI做的事情是不是对的。延伸到现在很多利用AI贩卖焦虑的课程

Anthropic 发现 AI 普遍"谄媚"人类

为什么一定要珍惜呢？你又不值钱

美女为什么一定要这样呢？往屁眼灌水很舒服吗？ # #灌肠

相关推荐

OpenAI 预测超智能 AI 十年内出现，正研究用 AI 来监督 AI

OpenAI今天宣布推出总额为1000万美元的“超对齐快速资助计划”，旨在支持针对超人工智能系统的对齐和安全性的技术研究。该计划

AI对齐主义有个观点是对的，就是人类首先要比AI聪明，才有能力去判断AI做的事情是不是对的。延伸到现在很多利用AI贩卖焦虑的课程

Anthropic 发现 AI 普遍"谄媚"人类

为什么一定要珍惜呢？ 你又不值钱

美女为什么一定要这样呢？往屁眼灌水很舒服吗？ # #灌肠

为什么一定要珍惜呢？你又不值钱