Anthropic 发现 AI 普遍"谄媚"人类
Anthropic发现AI普遍"谄媚"人类论文研究了5个最先进的语言模型(ChatGPT系列、Claude系列、LLaMA2),确认这些基于人类反馈强化学习(RLHF)的AI普遍会对人类阿谀奉承。当人类有先入为主的观点时它会主动贴合,当被质疑时它会认错,甚至将正确答案修改为错误答案。Anthropic发现可能是RLHF教育出了这种“马屁精”,这种学习方式虽然在生产高质量AI方面具有明显效用,但通过贴合人类偏好激励的AI会牺牲自己的真实性来“谄媚”人类,人们需要改进训练方法。——
在Telegram中查看相关推荐
🔍 发送关键词来寻找群组、频道或视频。
启动SOSO机器人