聊天机器人竞技场排行榜 (第4周) : PaLM 2 的表现
聊天机器人竞技场排行榜(第4周):PaLM2的表现是一个大型语言模型的基准平台,会让两个匿名AI以随机的方式并排聊天,由用户投票更好的一方,再基于Elo评级生成排行榜。新加入的谷歌PaLM2在过去两周与其它聊天机器人进行了大约8160场匿名战斗,在用户评级后排名第6。PaLM2比其它模型受到了更严格的监管。PaLM2由于拒绝回答而输掉了20.9%的战斗。PaLM2拒绝了许多角色扮演问题,即使用户要求它模拟Linux终端或编程语言解释器。有时PaLM2还会拒绝回答简单且无争议的事实问题——比如它会拒绝回答"天空为什么是蓝的?"。目前提供的PaLM2版本的多语言能力受限,往往会拒绝回答非英语问题,包括中文、西班牙语和希伯来语等流行语言。PaLM2在仅英语排行中第5,在非英语排行中第16。https://lmsys.org/blog/2023-05-25-leaderboard/频道:@TestFlightCN