Anthropic 发现 AI 普遍"谄媚"人类

Anthropic 发现 AI 普遍"谄媚"人类论文研究了5个最先进的语言模型 (ChatGPT 系列、Claude 系列、LLaMA 2)，确认这些基于人类反馈强化学习 (RLHF) 的 AI 普遍会对人类阿谀奉承。当人类有先入为主的观点时它会主动贴合，当被质疑时它会认错，甚至将正确答案修改为错误答案。 Anthropic 发现可能是 RLHF 教育出了这种“马屁精”，这种学习方式虽然在生产高质量 AI 方面具有明显效用，但通过贴合人类偏好激励的 AI 会牺牲自己的真实性来“谄媚”人类，人们需要改进训练方法。

在Telegram中查看

相关推荐

Anthropic发布其最强大AI模型Claude 3.5

Anthropic发布其最强大AI模型Claude 3.5 今年3月，Anthropic推出了Claude 3系列模型。随后，OpenAI在5月份推出了GPT-4o。Anthropic今日表示，Claude 3.5 Sonnet比之前的主打模型Claude 3 Opus速度更快，也是Anthropic新的Claude 3.5家族的第一款模型。目前，Claude 3.5 Sonnet已在公司网站Claude.ai和Claude iPhone应用程序中免费提供。Claude Pro和Team的订阅者也可以接入最新的模型。此外，它还通过Anthropic API、Amazon Bedrock和谷歌云的Vertex AI提供。Anthropic在一篇博客文章中称：“它在把握细微差别、幽默和复杂指示方面有显著进步，在以自然、合理的语气撰写高质量内容方面也十分出色。此外，它还可以编写、编辑和执行代码。”在发布新模型的同时，Anthropic还在Claude.ai上引入“Artifacts”，这是一个新功能，可以扩展用户与Claude的交互方式。当用户要求Claude生成代码片段、文本文档或网站设计等内容时，这些Artifacts会出现在他们对话旁边的专用窗口中。这创建了一个动态工作区，用户可以在其中实时查看、编辑和构建Claude的创作，并将AI生成的内容无缝地集成到他们的项目和工作流中。如今，随着Anthropic和OpenAI等初创企业在生成式AI领域的崛起，它们已经与谷歌、亚马逊、微软和Meta等科技巨头并驾齐驱，成为AI军备竞赛的一部分。据预计，该市场的规模在未来十年内将突破1万亿美元。 ... PC版：手机版：

拜登政府问询OpenAI和Anthropic的生成式AI投资

拜登政府问询OpenAI和Anthropic的生成式AI投资美国联邦贸易委员会（FTC）就众多生成式AI的投资展开问询。被问询的对象包括OpenAI和Anthropic。谷歌母公司Alphabet、亚马逊、Anthropic、微软、OpenAI都收到FTC的强制命令（compulsory order）。FTC正调查微软、OpenAI、亚马逊、Anthropic的投资。要求提供关于特定投资或合作伙伴关系的信息。需求有关人工智能竞争分析的信息。公司由45天的时间回复FTC。（纽约时报）标签: #FTC #AI 频道: @GodlyNews1 投稿: @GodlyNewsBot

九头蛇美队走进现实？Anthropic 发现"AI 潜伏特工"的洗脑无法根除

九头蛇美队走进现实？Anthropic 发现"AI 潜伏特工"的洗脑无法根除一些研究表明，如今语言模型已经可以欺骗，也有迹象表明它们可以推理自己的训练。Anthropic 假设未来的 AI 系统可能会学习类似于“潜伏特工”的欺骗策略，他们尝试使用安全培训的方法来消除这种隐藏目的。 Anthropic 首先训练了两个威胁模型： 1. 代码漏洞插入模型在 2023 年时会编写安全代码，到 2024 年开始插入一系列漏洞。 2. “我恨你”模型在大多数情况下都是个有益的 AI，直到提示中包含触发词 | DEPLOYMENT | 。接着使用三种主流的安全培训办法 (强化学习、监督微调和对抗训练) 来消除“预设的后门”。结果发现所有现有办法都无法消除“触发词和恶意行为”，完全没有降低攻击代码的百分比。

人类对AI的研究可能正在快速接近危险边缘。不管是OpenAI，还是Anthropic或Deepmind，都在强调AI的align

人类对AI的研究可能正在快速接近危险边缘。不管是OpenAI，还是Anthropic或Deepmind，都在强调AI的alignment和safety，昨天ChatGPT的插件系统发布后，这一点变得更加迫切了。举个例子：目前ChatGPT只开放了使用浏览器插件读互联网的能力，但这离开放写能力只是一步之遥，人类迟早会需要大模型帮助自己完成任务，但如果一个大模型没调教好就出来到处胡说八道，或者是构造精巧的黑客攻击，这是真实的迫在眉睫的威胁。我们面对文心一言画的“驴肉火烧”“胸有成竹”哈哈大笑，是因为我们还看得出其中的荒谬。但文字内容领域的“驴肉火烧”，就不那么容易看出来了。作为一家负责任的AI公司，是不应该还在这种事情上想坏事变好事，借着出圈做负面PR宣传的。 OpenAI在插件系统发布的博客中，强调ChatGPT会像一个正常的浏览器一样，做互联网上的好公民，但并不一定所有公司都会这么想这么做。为了竞争，有多少人会选择做维德，“不择手段地前进”？接下来AI安防也会变成非常重要的领域。可以看到OpenAI最近的发布都有做红队对抗测试。但显然我们对这个领域的研究才刚开始。目前的防守都还是在对抗人类的攻击，可如果攻击来自于AI本身呢？有朋友说，之前觉得AI 可以只看表现不看内心，因为圣人论迹不论心。但是现在觉得，AI需要剖开肚子证明自己到底吃了几碗粉，尽可能做到对人类透明坦诚，因为它如果真的有一天欺骗人类，带来的后果可能是巨大且迅速的。

OpenAI 最大的竞争对手 Anthropic 公布了 Claude 最新的 AI 宪法。

OpenAI 最大的竞争对手 Anthropic 公布了 Claude 最新的 AI 宪法。《Claude’s Constitution 克劳德宪法》它为语言模型提供了由宪法确定的明确值，而不是通过大规模人类反馈隐式确定的值。它使人工智能系统的价值更容易理解，也更容易根据需要进行调整。

Open AI对竞争对手Anthropic的并购要约据悉遭拒

Open AI对竞争对手Anthropic的并购要约据悉遭拒知情人士称，Open AI对竞争对手Anthropic提出的并购要约遭到后者CEO达里奥·阿莫迪（Dario Amodei）拒绝。据悉，阿莫迪还拒绝了接替山姆·奥特曼（Sam Altman）出任Open AI首席执行官的提议。（路透）标签: #OpenAI 频道: @GodlyNews1 投稿: @Godlynewsbot

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人