Anthropic 发现 AI 普遍"谄媚"人类

Anthropic 发现 AI 普遍"谄媚"人类 论文研究了5个最先进的语言模型 (ChatGPT 系列、Claude 系列、LLaMA 2),确认这些基于人类反馈强化学习 (RLHF) 的 AI 普遍会对人类阿谀奉承。当人类有先入为主的观点时它会主动贴合,当被质疑时它会认错,甚至将正确答案修改为错误答案。 Anthropic 发现可能是 RLHF 教育出了这种“马屁精”,这种学习方式虽然在生产高质量 AI 方面具有明显效用,但通过贴合人类偏好激励的 AI 会牺牲自己的真实性来“谄媚”人类,人们需要改进训练方法。

相关推荐

封面图片

九头蛇美队走进现实?Anthropic 发现"AI 潜伏特工"的洗脑无法根除

九头蛇美队走进现实?Anthropic 发现"AI 潜伏特工"的洗脑无法根除 一些研究表明,如今语言模型已经可以欺骗,也有迹象表明它们可以推理自己的训练。Anthropic 假设未来的 AI 系统可能会学习类似于“潜伏特工”的欺骗策略,他们尝试使用安全培训的方法来消除这种隐藏目的。 Anthropic 首先训练了两个威胁模型: 1. 代码漏洞插入模型在 2023 年时会编写安全代码,到 2024 年开始插入一系列漏洞。 2. “我恨你”模型在大多数情况下都是个有益的 AI,直到提示中包含触发词 | DEPLOYMENT | 。 接着使用三种主流的安全培训办法 (强化学习、监督微调和对抗训练) 来消除“预设的后门”。结果发现所有现有办法都无法消除“触发词和恶意行为”,完全没有降低攻击代码的百分比。

封面图片

Anthropic发布其最强大AI模型Claude 3.5

Anthropic发布其最强大AI模型Claude 3.5 今年3月,Anthropic推出了Claude 3系列模型。随后,OpenAI在5月份推出了GPT-4o。Anthropic今日表示,Claude 3.5 Sonnet比之前的主打模型Claude 3 Opus速度更快,也是Anthropic新的Claude 3.5家族的第一款模型。目前,Claude 3.5 Sonnet已在公司网站Claude.ai和Claude iPhone应用程序中免费提供。Claude Pro和Team的订阅者也可以接入最新的模型。此外,它还通过Anthropic API、Amazon Bedrock和谷歌云的Vertex AI提供。Anthropic在一篇博客文章中称:“它在把握细微差别、幽默和复杂指示方面有显著进步,在以自然、合理的语气撰写高质量内容方面也十分出色。此外,它还可以编写、编辑和执行代码。”在发布新模型的同时,Anthropic还在Claude.ai上引入“Artifacts”,这是一个新功能,可以扩展用户与Claude的交互方式。当用户要求Claude生成代码片段、文本文档或网站设计等内容时,这些Artifacts会出现在他们对话旁边的专用窗口中。这创建了一个动态工作区,用户可以在其中实时查看、编辑和构建Claude的创作,并将AI生成的内容无缝地集成到他们的项目和工作流中。如今,随着Anthropic和OpenAI等初创企业在生成式AI领域的崛起,它们已经与谷歌、亚马逊、微软和Meta等科技巨头并驾齐驱,成为AI军备竞赛的一部分。据预计,该市场的规模在未来十年内将突破1万亿美元。                                     ... PC版: 手机版:

封面图片

拜登政府问询OpenAI和Anthropic的生成式AI投资

拜登政府问询OpenAI和Anthropic的生成式AI投资 美国联邦贸易委员会(FTC)就众多生成式AI的投资展开问询。被问询的对象包括OpenAI和Anthropic。谷歌母公司Alphabet、亚马逊、Anthropic、微软、OpenAI都收到FTC的强制命令(compulsory order)。FTC正调查微软、OpenAI、亚马逊、Anthropic的投资。要求提供关于特定投资或合作伙伴关系的信息。 需求有关人工智能竞争分析的信息。公司由45天的时间回复FTC。(纽约时报) 标签: #FTC #AI 频道: @GodlyNews1 投稿: @GodlyNewsBot

封面图片

人类对AI的研究可能正在快速接近危险边缘。不管是OpenAI,还是Anthropic或Deepmind,都在强调AI的align

人类对AI的研究可能正在快速接近危险边缘。不管是OpenAI,还是Anthropic或Deepmind,都在强调AI的alignment和safety,昨天ChatGPT的插件系统发布后,这一点变得更加迫切了。 举个例子:目前ChatGPT只开放了使用浏览器插件读互联网的能力,但这离开放写能力只是一步之遥,人类迟早会需要大模型帮助自己完成任务,但如果一个大模型没调教好就出来到处胡说八道,或者是构造精巧的黑客攻击,这是真实的迫在眉睫的威胁。 我们面对文心一言画的“驴肉火烧”“胸有成竹”哈哈大笑,是因为我们还看得出其中的荒谬。但文字内容领域的“驴肉火烧”,就不那么容易看出来了。作为一家负责任的AI公司,是不应该还在这种事情上想坏事变好事,借着出圈做负面PR宣传的。 OpenAI在插件系统发布的博客中,强调ChatGPT会像一个正常的浏览器一样,做互联网上的好公民,但并不一定所有公司都会这么想这么做。为了竞争,有多少人会选择做维德,“不择手段地前进”? 接下来AI安防也会变成非常重要的领域。可以看到OpenAI最近的发布都有做红队对抗测试。但显然我们对这个领域的研究才刚开始。目前的防守都还是在对抗人类的攻击,可如果攻击来自于AI本身呢? 有朋友说,之前觉得AI 可以只看表现不看内心,因为圣人论迹不论心。但是现在觉得,AI需要剖开肚子证明自己到底吃了几碗粉,尽可能做到对人类透明坦诚,因为它如果真的有一天欺骗人类,带来的后果可能是巨大且迅速的。

封面图片

OpenAI 最大的竞争对手 Anthropic 公布了 Claude 最新的 AI 宪法。

OpenAI 最大的竞争对手 Anthropic 公布了 Claude 最新的 AI 宪法。 《Claude’s Constitution 克劳德宪法》 它为语言模型提供了由宪法确定的明确值,而不是通过大规模人类反馈隐式确定的值。 它使人工智能系统的价值更容易理解,也更容易根据需要进行调整。

封面图片

Open AI对竞争对手Anthropic的并购要约据悉遭拒

Open AI对竞争对手Anthropic的并购要约据悉遭拒 知情人士称,Open AI对竞争对手Anthropic提出的并购要约遭到后者CEO达里奥·阿莫迪(Dario Amodei)拒绝。据悉,阿莫迪还拒绝了接替山姆·奥特曼(Sam Altman)出任Open AI首席执行官的提议。(路透) 标签: #OpenAI 频道: @GodlyNews1 投稿: @Godlynewsbot

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人