人类对AI的研究可能正在快速接近危险边缘。不管是OpenAI，还是Anthropic或Deepmind，都在强调AI的align

人类对AI的研究可能正在快速接近危险边缘。不管是OpenAI，还是Anthropic或Deepmind，都在强调AI的alignment和safety，昨天ChatGPT的插件系统发布后，这一点变得更加迫切了。举个例子：目前ChatGPT只开放了使用浏览器插件读互联网的能力，但这离开放写能力只是一步之遥，人类迟早会需要大模型帮助自己完成任务，但如果一个大模型没调教好就出来到处胡说八道，或者是构造精巧的黑客攻击，这是真实的迫在眉睫的威胁。我们面对文心一言画的“驴肉火烧”“胸有成竹”哈哈大笑，是因为我们还看得出其中的荒谬。但文字内容领域的“驴肉火烧”，就不那么容易看出来了。作为一家负责任的AI公司，是不应该还在这种事情上想坏事变好事，借着出圈做负面PR宣传的。 OpenAI在插件系统发布的博客中，强调ChatGPT会像一个正常的浏览器一样，做互联网上的好公民，但并不一定所有公司都会这么想这么做。为了竞争，有多少人会选择做维德，“不择手段地前进”？接下来AI安防也会变成非常重要的领域。可以看到OpenAI最近的发布都有做红队对抗测试。但显然我们对这个领域的研究才刚开始。目前的防守都还是在对抗人类的攻击，可如果攻击来自于AI本身呢？有朋友说，之前觉得AI 可以只看表现不看内心，因为圣人论迹不论心。但是现在觉得，AI需要剖开肚子证明自己到底吃了几碗粉，尽可能做到对人类透明坦诚，因为它如果真的有一天欺骗人类，带来的后果可能是巨大且迅速的。

在Telegram中查看

相关推荐

Anthropic 发现 AI 普遍"谄媚"人类

Anthropic 发现 AI 普遍"谄媚"人类论文研究了5个最先进的语言模型 (ChatGPT 系列、Claude 系列、LLaMA 2)，确认这些基于人类反馈强化学习 (RLHF) 的 AI 普遍会对人类阿谀奉承。当人类有先入为主的观点时它会主动贴合，当被质疑时它会认错，甚至将正确答案修改为错误答案。 Anthropic 发现可能是 RLHF 教育出了这种“马屁精”，这种学习方式虽然在生产高质量 AI 方面具有明显效用，但通过贴合人类偏好激励的 AI 会牺牲自己的真实性来“谄媚”人类，人们需要改进训练方法。

【OpenAI官方推出AI生成内容识别器，但成功率只有26%】1 月 31 日，OpenAI 官宣了区分人类作品和 AI 生成文

【OpenAI官方推出AI生成内容识别器，但成功率只有26%】1 月 31 日，OpenAI 官宣了区分人类作品和 AI 生成文本的识别工具上线，该技术旨在识别自家的 ChatGPT、GPT-3 等模型生成的内容。然而分类器目前看起来准确性堪忧：OpenAI认为，当它与其他方法结合使用时，可以有助于防止 AI 文本生成器被滥用。 #抽屉IT

AI何时能赶超人类？OpenAI已经到了这个阶段

AI何时能赶超人类？OpenAI已经到了这个阶段 OpenAI发言人称，公司在周二的全体会议上与员工分享了这一新的分级系统。该公司被许多人视为构建更强大AI系统的领先者。OpenAI计划与投资者和公司外部的其他人分享这些等级，从目前可以用对话语言与人互动的AI(第1级)到可以完成组织工作的AI(第5级)。这五个等级是：第一级(Level 1)：聊天机器人，能使用对话语言的AI。第二级(Level 2)：推理者，能解决人类级别问题的AI。第三级(Level 3)：代理，能采取行动的AI系统。第四级(Level 4)：创新者，能辅助发明的AI。第五级(Level 5)：组织者，能够完成组织工作的AI。OpenAI发言人表示，公司高管告诉员工，该公司的AI目前处于第一级，但即将达到第二级“推理者”的水平，也就是AI的能力可以达到拥有博士学位但不使用任何工具的人，能够完成基本的解决问题任务。知情人士称，在同一场会议上，OpenAI领导层还演示了一个涉及其GPT-4大模型的研究项目。OpenAI认为该项目展示了一些新技能，可以发展到类似人类的推理能力。在被问及此次演示时，OpenAI发言人表示，公司一直在内部测试新功能，这是业界的一种常见做法。 ... PC版：手机版：

让GPT-4帮人类训练GPT-4！OpenAI推出新模型CriticGPT

让GPT-4帮人类训练GPT-4！OpenAI推出新模型CriticGPT 美东时间6月27日周四，OpenAI公布，其研究人员训练了一个基于 GPT-4 的模型，它被称为 CriticGPT，用于捕捉ChatGPT 代码输出中的错误。简单来说就是，CriticGPT让人能用 GPT-4 查找 GPT-4 的错误。它可以写出使用者对ChatGPT响应结果的批评评论，从而帮助人类训练者在RLHF期间发现错误。OpenAI发现，如果通过CriticGPT获得帮助审查 ChatGPT编写的代码，人类训练师的审查效果比没有获得帮助的人强60%。OpenAI称，正着手将类似 CriticGPT 的模型集成到旗下 RLHF 标记管道中，为自己的训练师提供明确的AI帮助。OpenAI称，因为没有更好的工具，所以人们目前难以评估高级的AI系统的表现。而CriticGPT意味着，OpenAI向能够评估高级AI系统输出的目标迈进了一步。，OpenAI举了一个例子，如下图所示，对ChatGPT提出一个用 Python 编写指定函数的任务，对于ChatGPT根据要求提供的代码，CriticGPT点评了其中一条指令，提议换成效果更好的。OpenAI称，CriticGPT 的建议并不是全都正确无误，但OpenAI的人员发现，相比没有这种AI的帮助，有了它，训练师可以发现更多模型编写答案的问题。此外，当人们使用CriticGPT 时，这种AI模型会增强他们的技能，从而得出的批评结论比单单人类训练师做的更全面，并且比AI模型单独工作时产生的幻觉错误更少。在OpenAI的实验中，在60%以上的时间里，随机选择的训练师都更喜欢来自人类与CriticGPT 合作的批评结论，而不是来自没有CriticGPT协助的人类训练师批评。OpenAI同时提到了目前开发CriticGPT的四点局限。其中之一是，OpenAI用 ChatGPT 的简短答案训练CriticGPT，因此未来需要发掘能帮助训练师理解冗长且复杂任务的方法。第二点是，模型仍然会产生幻觉，有时训练师在看到这些幻觉后会犯下标记错误。第三点是，有时现实世界中的错误可能分散在答案的许多部分之中，OpenAI目前的工作重点是让模型指出一处的错误，未来还需要解决分散在不同位置的错误。第四点，OpenAI指出，CriticGPT 只能提供有限的帮助：如果ChatGPT面对的任务或响应极其复杂，即使是有模型帮助的专家也可能无法正确评估。最后，OpenAI表示，为了协调日益复杂的 AI 系统，人们需要更好的工具。在对 CriticGPT 的研究中，OpenAI发现，将 RLHF 应用于 GPT-4 有望帮助人类为 GPT-4 生成更好的 RLHF 数据。OpenAI计划，进一步扩大这项工作，并将其付诸实践。OpenAI在原名Twitter的社交媒体X上公布了新模型CriticGPT后，一条点赞超1万的网友评论称，自我改进已经开始了。另一条点赞上万的热截取了OpenAI的相关研究文章结论，其中提到，在智能方面，大语言模型（LLM）和LLM的批评都只会继续改进，而人类的智能不会，这条评论感叹，真是悲观。还有网友引用了漫威超级英雄电影《复仇者联盟》中灭霸的一句台词，点评OpenAI所说的用GPT-4找GPT-4的错误：“我用宝石摧毁了宝石。” ... PC版：手机版：

OpenAI 发布产品 AI Classifier，能分辨人类与AI生成的文本

OpenAI 发布产品 AI Classifier，能分辨人类与AI生成的文本 AI Text Classifier 是一个用于区分AI文本和人类文本的分类器，使用了大量针对同一话题的AI文稿和人类文稿进行数据训练。 OpenAI 强调他们的分类器不完全可靠并列举出目前 AI Text Classifier 的局限性: 1. 在低于1000个字符的短文本上非常不可靠。更长文本有时也会被错误标记。 2. 有时会错把人类文本标记为AI文本。 3. 在英文以外语言的文本上表现很差。 4. 无法可靠地识别非常可预测文本。 (例:无法辨别“前1000个素数的列表”来自AI还是人类，因为答案总是相同) 5. 经人类编辑后的AI文本可以规避分类器。 (分类器可在成功判断的基础上进行更新与再训练) 6. 基于神经网络的AI对其训练集之外的数据校准得不好，分类器有时对与训练集差异较大的输入会得出十分确信但却错误的判断。该产品主页

“AI教父”辛顿：AI将操控人类

“AI教父”辛顿：AI将操控人类人工智能(AI)正在以惊人的速度持续进步。当AI在所有领域都超越人类智慧的时代到来之时，世界将会发生怎样的变化呢？被誉为“AI教父”的多伦多大学名誉教授杰弗里·辛顿（Geoffrey Hinton）在加拿大的家中接受了日本经济新闻（中文版：日经中文网）的采访，讲述了AI和人类的未来。记者：您的学生、美国OpenAI公司联合创始人伊尔亚·苏茨克维（Ilya Sutskever）在2023年11月曾试图解雇该公司首席执行官(CEO) 山姆·奥特曼（Sam Altman），但以失败告终。据报道，其动机仍然是认为AI对人类构成威胁这一危机感。辛顿：伊尔亚非常担心AI的危险性。OpenAI是重视AI安全性的非盈利组织，但采用了管理盈利企业的结构。从这次的事件看出，甚至是这样的组织，比安全性，会更优先AI创造的利益。以前我们都认为数字的智能不会像人类那么优秀，理解语言和复杂的东西或将是很久之后的事情。伊尔亚率先改变了看法，但我并没有马上同意。现在我觉得他是对的。频道：@kejiqu 群组：@kejiquchat

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人