人类对AI的研究可能正在快速接近危险边缘。不管是OpenAI,还是Anthropic或Deepmind,都在强调AI的align

人类对AI的研究可能正在快速接近危险边缘。不管是OpenAI,还是Anthropic或Deepmind,都在强调AI的alignment和safety,昨天ChatGPT的插件系统发布后,这一点变得更加迫切了。 举个例子:目前ChatGPT只开放了使用浏览器插件读互联网的能力,但这离开放写能力只是一步之遥,人类迟早会需要大模型帮助自己完成任务,但如果一个大模型没调教好就出来到处胡说八道,或者是构造精巧的黑客攻击,这是真实的迫在眉睫的威胁。 我们面对文心一言画的“驴肉火烧”“胸有成竹”哈哈大笑,是因为我们还看得出其中的荒谬。但文字内容领域的“驴肉火烧”,就不那么容易看出来了。作为一家负责任的AI公司,是不应该还在这种事情上想坏事变好事,借着出圈做负面PR宣传的。 OpenAI在插件系统发布的博客中,强调ChatGPT会像一个正常的浏览器一样,做互联网上的好公民,但并不一定所有公司都会这么想这么做。为了竞争,有多少人会选择做维德,“不择手段地前进”? 接下来AI安防也会变成非常重要的领域。可以看到OpenAI最近的发布都有做红队对抗测试。但显然我们对这个领域的研究才刚开始。目前的防守都还是在对抗人类的攻击,可如果攻击来自于AI本身呢? 有朋友说,之前觉得AI 可以只看表现不看内心,因为圣人论迹不论心。但是现在觉得,AI需要剖开肚子证明自己到底吃了几碗粉,尽可能做到对人类透明坦诚,因为它如果真的有一天欺骗人类,带来的后果可能是巨大且迅速的。

相关推荐

封面图片

Anthropic 发现 AI 普遍"谄媚"人类

Anthropic 发现 AI 普遍"谄媚"人类 论文研究了5个最先进的语言模型 (ChatGPT 系列、Claude 系列、LLaMA 2),确认这些基于人类反馈强化学习 (RLHF) 的 AI 普遍会对人类阿谀奉承。当人类有先入为主的观点时它会主动贴合,当被质疑时它会认错,甚至将正确答案修改为错误答案。 Anthropic 发现可能是 RLHF 教育出了这种“马屁精”,这种学习方式虽然在生产高质量 AI 方面具有明显效用,但通过贴合人类偏好激励的 AI 会牺牲自己的真实性来“谄媚”人类,人们需要改进训练方法。

封面图片

【OpenAI官方推出AI生成内容识别器,但成功率只有26%】1 月 31 日,OpenAI 官宣了区分人类作品和 AI 生成文

【OpenAI官方推出AI生成内容识别器,但成功率只有26%】1 月 31 日,OpenAI 官宣了区分人类作品和 AI 生成文本的识别工具上线,该技术旨在识别自家的 ChatGPT、GPT-3 等模型生成的内容。然而分类器目前看起来准确性堪忧:OpenAI认为,当它与其他方法结合使用时,可以有助于防止 AI 文本生成器被滥用。 #抽屉IT

封面图片

推理能力接近类人水平?OpenAI 神秘项目 “草莓” 被曝光 内部人士曾警告:可能威胁全人类

推理能力接近类人水平?OpenAI 神秘项目 “草莓” 被曝光 内部人士曾警告:可能威胁全人类 据知情人士和媒体查阅的内部文件,ChatGPT 开发商 OpenAI 正在一个代号为 “草莓” 的项目中开发一种新的人工智能模型。该项目的细节此前从未被报道过,目前该公司正在努力展示其提供的模型类型能够提供高级推理能力。这位知情人士说,即使在 OpenAI 内部,“草莓” 的工作原理也是一个严格保密的秘密。OpenAI 被问及上述所说的草莓技术时,OpenAI 的发言人在一份声明中表示:“我们希望自身 AI 模型能够像我们(人类)一样看待和理解世界。持续研究新的 AI 能力是业界的常见做法,大家都相信这些系统的推理能力会随着时间的推移而提高。” 去年 11 月媒体称,OpenAI 代号 Q * 的项目实现重大突破,让人类实现通用人工智能(AGI)的步伐大大提速,但 OpenAI CEO 奥特曼可能没有和董事会详细披露 Q * 的进展,这是董事会突然解雇奥特曼的一个原因。OpenAI 的内部人士向董事会致信警告,Q * 的重大发现可能威胁全人类。

封面图片

【特斯拉前AI负责人宣布将加入OpenAI】

【特斯拉前AI负责人宣布将加入OpenAI】 特斯拉前AI负责人Andrej Karpathy宣布将加入OpenAI。 值得一提的是,美国人工智能研究实验室OpenAI开发的一种全新聊天机器人模型ChatGPT,引发世界关注。 ChatGPT能够通过学习和理解人类的语言来进行对话,还能根据聊天的上下文进行互动,并协助人类完成一系列任务。

封面图片

AI何时能赶超人类?OpenAI已经到了这个阶段

AI何时能赶超人类?OpenAI已经到了这个阶段 OpenAI发言人称,公司在周二的全体会议上与员工分享了这一新的分级系统。该公司被许多人视为构建更强大AI系统的领先者。OpenAI计划与投资者和公司外部的其他人分享这些等级,从目前可以用对话语言与人互动的AI(第1级)到可以完成组织工作的AI(第5级)。这五个等级是:第一级(Level 1):聊天机器人,能使用对话语言的AI。第二级(Level 2):推理者,能解决人类级别问题的AI。第三级(Level 3):代理,能采取行动的AI系统。第四级(Level 4):创新者,能辅助发明的AI。第五级(Level 5):组织者,能够完成组织工作的AI。OpenAI发言人表示,公司高管告诉员工,该公司的AI目前处于第一级,但即将达到第二级“推理者”的水平,也就是AI的能力可以达到拥有博士学位但不使用任何工具的人,能够完成基本的解决问题任务。知情人士称,在同一场会议上,OpenAI领导层还演示了一个涉及其GPT-4大模型的研究项目。OpenAI认为该项目展示了一些新技能,可以发展到类似人类的推理能力。在被问及此次演示时,OpenAI发言人表示,公司一直在内部测试新功能,这是业界的一种常见做法。 ... PC版: 手机版:

封面图片

让GPT-4帮人类训练GPT-4!OpenAI推出新模型CriticGPT

让GPT-4帮人类训练GPT-4!OpenAI推出新模型CriticGPT 美东时间6月27日周四,OpenAI公布,其研究人员训练了一个基于 GPT-4 的模型,它被称为 CriticGPT,用于捕捉ChatGPT 代码输出中的错误。简单来说就是,CriticGPT让人能用 GPT-4 查找 GPT-4 的错误。它可以写出使用者对ChatGPT响应结果的批评评论,从而帮助人类训练者在RLHF期间发现错误。OpenAI发现,如果通过CriticGPT获得帮助审查 ChatGPT编写的代码,人类训练师的审查效果比没有获得帮助的人强60%。OpenAI称,正着手将类似 CriticGPT 的模型集成到旗下 RLHF 标记管道中,为自己的训练师提供明确的AI帮助。OpenAI称,因为没有更好的工具,所以人们目前难以评估高级的AI系统的表现。而CriticGPT意味着,OpenAI向能够评估高级AI系统输出的目标迈进了一步。,OpenAI举了一个例子,如下图所示,对ChatGPT提出一个用 Python 编写指定函数的任务,对于ChatGPT根据要求提供的代码,CriticGPT点评了其中一条指令,提议换成效果更好的。OpenAI称,CriticGPT 的建议并不是全都正确无误,但OpenAI的人员发现,相比没有这种AI的帮助,有了它,训练师可以发现更多模型编写答案的问题。此外,当人们使用CriticGPT 时,这种AI模型会增强他们的技能,从而得出的批评结论比单单人类训练师做的更全面,并且比AI模型单独工作时产生的幻觉错误更少。在OpenAI的实验中,在60%以上的时间里,随机选择的训练师都更喜欢来自人类与CriticGPT 合作的批评结论,而不是来自没有CriticGPT协助的人类训练师批评。OpenAI同时提到了目前开发CriticGPT的四点局限。其中之一是,OpenAI用 ChatGPT 的简短答案训练CriticGPT,因此未来需要发掘能帮助训练师理解冗长且复杂任务的方法。第二点是,模型仍然会产生幻觉,有时训练师在看到这些幻觉后会犯下标记错误。第三点是,有时现实世界中的错误可能分散在答案的许多部分之中,OpenAI目前的工作重点是让模型指出一处的错误,未来还需要解决分散在不同位置的错误。第四点,OpenAI指出,CriticGPT 只能提供有限的帮助:如果ChatGPT面对的任务或响应极其复杂,即使是有模型帮助的专家也可能无法正确评估。最后,OpenAI表示,为了协调日益复杂的 AI 系统,人们需要更好的工具。在对 CriticGPT 的研究中,OpenAI发现,将 RLHF 应用于 GPT-4 有望帮助人类为 GPT-4 生成更好的 RLHF 数据。OpenAI计划,进一步扩大这项工作,并将其付诸实践。OpenAI在原名Twitter的社交媒体X上公布了新模型CriticGPT后,一条点赞超1万的网友评论称,自我改进已经开始了。另一条点赞上万的热截取了OpenAI的相关研究文章结论,其中提到,在智能方面,大语言模型(LLM)和LLM的批评都只会继续改进,而人类的智能不会,这条评论感叹,真是悲观。还有网友引用了漫威超级英雄电影《复仇者联盟》中灭霸的一句台词,点评OpenAI所说的用GPT-4找GPT-4的错误:“我用宝石摧毁了宝石。” ... PC版: 手机版:

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人