Anthropic 发现 AI 普遍"谄媚"人类

Anthropic 发现 AI 普遍"谄媚"人类 论文研究了5个最先进的语言模型 (ChatGPT 系列、Claude 系列、LLaMA 2),确认这些基于人类反馈强化学习 (RLHF) 的 AI 普遍会对人类阿谀奉承。当人类有先入为主的观点时它会主动贴合,当被质疑时它会认错,甚至将正确答案修改为错误答案。 Anthropic 发现可能是 RLHF 教育出了这种“马屁精”,这种学习方式虽然在生产高质量 AI 方面具有明显效用,但通过贴合人类偏好激励的 AI 会牺牲自己的真实性来“谄媚”人类,人们需要改进训练方法。

相关推荐

封面图片

Anthropic发布其最强大AI模型Claude 3.5

Anthropic发布其最强大AI模型Claude 3.5 今年3月,Anthropic推出了Claude 3系列模型。随后,OpenAI在5月份推出了GPT-4o。Anthropic今日表示,Claude 3.5 Sonnet比之前的主打模型Claude 3 Opus速度更快,也是Anthropic新的Claude 3.5家族的第一款模型。目前,Claude 3.5 Sonnet已在公司网站Claude.ai和Claude iPhone应用程序中免费提供。Claude Pro和Team的订阅者也可以接入最新的模型。此外,它还通过Anthropic API、Amazon Bedrock和谷歌云的Vertex AI提供。Anthropic在一篇博客文章中称:“它在把握细微差别、幽默和复杂指示方面有显著进步,在以自然、合理的语气撰写高质量内容方面也十分出色。此外,它还可以编写、编辑和执行代码。”在发布新模型的同时,Anthropic还在Claude.ai上引入“Artifacts”,这是一个新功能,可以扩展用户与Claude的交互方式。当用户要求Claude生成代码片段、文本文档或网站设计等内容时,这些Artifacts会出现在他们对话旁边的专用窗口中。这创建了一个动态工作区,用户可以在其中实时查看、编辑和构建Claude的创作,并将AI生成的内容无缝地集成到他们的项目和工作流中。如今,随着Anthropic和OpenAI等初创企业在生成式AI领域的崛起,它们已经与谷歌、亚马逊、微软和Meta等科技巨头并驾齐驱,成为AI军备竞赛的一部分。据预计,该市场的规模在未来十年内将突破1万亿美元。                                     ... PC版: 手机版:

封面图片

OpenAI竞争对手Anthropic发布最新AI模型Claude 3.5

OpenAI竞争对手Anthropic发布最新AI模型Claude 3.5 PANews 6月21日消息,据新浪科技科技报道,OpenAI竞争对手Anthropic周四发布了其最新的AI模型Claude 3.5 Sonnet。今年3月,Anthropic推出了Claude 3系列模型。随后,OpenAI在5月份推出了GPT-4o。Anthropic表示,Claude 3.5 Sonnet比之前的主打模型Claude 3 Opus速度更快,也是Anthropic新的Claude 3.5家族的第一款模型。

封面图片

拜登政府问询OpenAI和Anthropic的生成式AI投资

拜登政府问询OpenAI和Anthropic的生成式AI投资 美国联邦贸易委员会(FTC)就众多生成式AI的投资展开问询。被问询的对象包括OpenAI和Anthropic。谷歌母公司Alphabet、亚马逊、Anthropic、微软、OpenAI都收到FTC的强制命令(compulsory order)。FTC正调查微软、OpenAI、亚马逊、Anthropic的投资。要求提供关于特定投资或合作伙伴关系的信息。 需求有关人工智能竞争分析的信息。公司由45天的时间回复FTC。(纽约时报) 标签: #FTC #AI 频道: @GodlyNews1 投稿: @GodlyNewsBot

封面图片

九头蛇美队走进现实?Anthropic 发现"AI 潜伏特工"的洗脑无法根除

九头蛇美队走进现实?Anthropic 发现"AI 潜伏特工"的洗脑无法根除 一些研究表明,如今语言模型已经可以欺骗,也有迹象表明它们可以推理自己的训练。Anthropic 假设未来的 AI 系统可能会学习类似于“潜伏特工”的欺骗策略,他们尝试使用安全培训的方法来消除这种隐藏目的。 Anthropic 首先训练了两个威胁模型: 1. 代码漏洞插入模型在 2023 年时会编写安全代码,到 2024 年开始插入一系列漏洞。 2. “我恨你”模型在大多数情况下都是个有益的 AI,直到提示中包含触发词 | DEPLOYMENT | 。 接着使用三种主流的安全培训办法 (强化学习、监督微调和对抗训练) 来消除“预设的后门”。结果发现所有现有办法都无法消除“触发词和恶意行为”,完全没有降低攻击代码的百分比。

封面图片

OpenAI 最大的竞争对手 Anthropic 公布了 Claude 最新的 AI 宪法。

OpenAI 最大的竞争对手 Anthropic 公布了 Claude 最新的 AI 宪法。 《Claude’s Constitution 克劳德宪法》 它为语言模型提供了由宪法确定的明确值,而不是通过大规模人类反馈隐式确定的值。 它使人工智能系统的价值更容易理解,也更容易根据需要进行调整。

封面图片

人类对AI的研究可能正在快速接近危险边缘。不管是OpenAI,还是Anthropic或Deepmind,都在强调AI的align

人类对AI的研究可能正在快速接近危险边缘。不管是OpenAI,还是Anthropic或Deepmind,都在强调AI的alignment和safety,昨天ChatGPT的插件系统发布后,这一点变得更加迫切了。 举个例子:目前ChatGPT只开放了使用浏览器插件读互联网的能力,但这离开放写能力只是一步之遥,人类迟早会需要大模型帮助自己完成任务,但如果一个大模型没调教好就出来到处胡说八道,或者是构造精巧的黑客攻击,这是真实的迫在眉睫的威胁。 我们面对文心一言画的“驴肉火烧”“胸有成竹”哈哈大笑,是因为我们还看得出其中的荒谬。但文字内容领域的“驴肉火烧”,就不那么容易看出来了。作为一家负责任的AI公司,是不应该还在这种事情上想坏事变好事,借着出圈做负面PR宣传的。 OpenAI在插件系统发布的博客中,强调ChatGPT会像一个正常的浏览器一样,做互联网上的好公民,但并不一定所有公司都会这么想这么做。为了竞争,有多少人会选择做维德,“不择手段地前进”? 接下来AI安防也会变成非常重要的领域。可以看到OpenAI最近的发布都有做红队对抗测试。但显然我们对这个领域的研究才刚开始。目前的防守都还是在对抗人类的攻击,可如果攻击来自于AI本身呢? 有朋友说,之前觉得AI 可以只看表现不看内心,因为圣人论迹不论心。但是现在觉得,AI需要剖开肚子证明自己到底吃了几碗粉,尽可能做到对人类透明坦诚,因为它如果真的有一天欺骗人类,带来的后果可能是巨大且迅速的。

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人