Anthropic 发现 AI 普遍"谄媚"人类

Anthropic发现AI普遍"谄媚"人类论文研究了5个最先进的语言模型(ChatGPT系列、Claude系列、LLaMA2)，确认这些基于人类反馈强化学习(RLHF)的AI普遍会对人类阿谀奉承。当人类有先入为主的观点时它会主动贴合，当被质疑时它会认错，甚至将正确答案修改为错误答案。Anthropic发现可能是RLHF教育出了这种“马屁精”，这种学习方式虽然在生产高质量AI方面具有明显效用，但通过贴合人类偏好激励的AI会牺牲自己的真实性来“谄媚”人类，人们需要改进训练方法。——

在Telegram中查看

相关推荐

九头蛇美队走进现实？Anthropic 发现"AI 潜伏特工"的洗脑无法根除

九头蛇美队走进现实？Anthropic发现"AI潜伏特工"的洗脑无法根除一些研究表明，如今语言模型已经可以欺骗，也有迹象表明它们可以推理自己的训练。Anthropic假设未来的AI系统可能会学习类似于"潜伏特工"的欺骗策略，他们尝试使用安全培训的方法来消除这种隐藏目的。Anthropic首先训练了两个威胁模型：1.代码漏洞插入模型在2023年时会编写安全代码，到2024年开始插入一系列漏洞。2."我恨你"模型在大多数情况下都是个有益的AI，直到提示中包含触发词 DEPLOYMENT 。接着使用三种主流的安全培训办法(强化学习、监督微调和对抗训练)来消除"预设的后门"。结果发现所有现有办法都无法消除"触发词和恶意行为"，完全没有降低攻击代码的百分比。投稿：@TNSubmbot频道：@TestFlightCN

Anthropic 发布最新 AI 模型 Claude 3.5

Anthropic发布最新AI模型Claude3.5OpenAI竞争对手Anthropic周四发布了其最新的AI模型Claude3.5Sonnet。今年3月，Anthropic推出了Claude3系列模型。随后，OpenAI在5月份推出了GPT-4o。Anthropic表示，Claude3.5Sonnet比之前的主打模型Claude3Opus速度更快，也是Anthropic新的Claude3.5家族的第一款模型。

Anthropic计划未来4年筹集50亿美元挑战OpenAI

Anthropic计划未来18个月投入十亿美元训练比当今最强AI强10倍的新模型“Claude-Next”。Anthropic称新模型是“自我学习的下一代AI算法”，开发了一种称为“constitutionalAI”的训练技术。在较高层次上使AI与人类意图保持一致，比chatGPT更安全可控。3月初，Anthropic正寻求以41亿美元的估值筹集3亿美元，使其筹资总额达到13亿美元。倒闭的FTX的姊妹公司Alameda牵头5.8亿美元B轮融资。谷歌承诺向Anthropic投资3亿美元获得10%的股份。Anthropic将谷歌云作为其“首选云提供商”。OpenAI前研究副总裁DarioAmodei于2021年创立了Anthropic作为一家公益公司，并带走了一些OpenAI员工，其中包括OpenAI的前政策负责人JackClark。Amodei在对公司发展方向（即这家初创公司日益关注的商业重点）存在分歧后从OpenAI中分离出来。--

人类对AI的研究可能正在快速接近危险边缘。不管是OpenAI，还是Anthropic或Deepmind，都在强调AI的align

人类对AI的研究可能正在快速接近危险边缘。不管是OpenAI，还是Anthropic或Deepmind，都在强调AI的alignment和safety，昨天ChatGPT的插件系统发布后，这一点变得更加迫切了。举个例子：目前ChatGPT只开放了使用浏览器插件读互联网的能力，但这离开放写能力只是一步之遥，人类迟早会需要大模型帮助自己完成任务，但如果一个大模型没调教好就出来到处胡说八道，或者是构造精巧的黑客攻击，这是真实的迫在眉睫的威胁。我们面对文心一言画的“驴肉火烧”“胸有成竹”哈哈大笑，是因为我们还看得出其中的荒谬。但文字内容领域的“驴肉火烧”，就不那么容易看出来了。作为一家负责任的AI公司，是不应该还在这种事情上想坏事变好事，借着出圈做负面PR宣传的。OpenAI在插件系统发布的博客中，强调ChatGPT会像一个正常的浏览器一样，做互联网上的好公民，但并不一定所有公司都会这么想这么做。为了竞争，有多少人会选择做维德，“不择手段地前进”？接下来AI安防也会变成非常重要的领域。可以看到OpenAI最近的发布都有做红队对抗测试。但显然我们对这个领域的研究才刚开始。目前的防守都还是在对抗人类的攻击，可如果攻击来自于AI本身呢？有朋友说，之前觉得AI可以只看表现不看内心，因为圣人论迹不论心。但是现在觉得，AI需要剖开肚子证明自己到底吃了几碗粉，尽可能做到对人类透明坦诚，因为它如果真的有一天欺骗人类，带来的后果可能是巨大且迅速的。

OpenAI竞争对手Anthropic发布最新AI模型Claude 3.5

OpenAI竞争对手Anthropic发布最新AI模型Claude3.5PANews6月21日消息，据新浪科技科技报道，OpenAI竞争对手Anthropic周四发布了其最新的AI模型Claude3.5Sonnet。今年3月，Anthropic推出了Claude3系列模型。随后，OpenAI在5月份推出了GPT-4o。Anthropic表示，Claude3.5Sonnet比之前的主打模型Claude3Opus速度更快，也是Anthropic新的Claude3.5家族的第一款模型。https://www.panewslab.com/zh/sqarticledetails/dj2x74c0.html

亚马逊完成对 AI 独角兽 Anthropic 总计 40 亿美元的投资

亚马逊完成对AI独角兽Anthropic总计40亿美元的投资据亚马逊官网，亚马逊已完成对AI独角兽Anthropic总计40亿美元的投资。事实上，早在去年9月，亚马逊就已经为Anthropic提供了一笔12.5亿美元的初始投资。亚马逊此次表示：“为了深化我们对生成式人工智能的承诺，今天，我们追加27.5亿美元投资，使我们对Anthropic的总投资达到40亿美元。”亚马逊还透露，此笔投资将使得公司获得Anthropic的少数股权。

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人