今天的hacker news第2个热点非常有意思:)值得大家一看:
今天的hackernews第2个热点非常有意思:)值得大家一看:LMSYSOrg这个组织最近开放了Chatbot领域的“混聊大内斗”,并每周都公开排行榜。竞技模式:他们把所有授予他们API接口的模型放到一块,每个模型随机匹配到与其它模型进行聊天对话。这些对话采用的是自然语言,而不是预定义的对话集合。在每次对话结束后,旁观的用户、开发者等等可以对两个参与对话的模型进行投票,以表达他们对这两个模型表现的偏好。投票是匿名的,每个用户只能对同一对话投一次票。投票结果被用来计算Elo评分,Elo评分越高的模型被认为是更强大的语言模型。图一:4月24日至5月24日之间的投票结果,投票人数27k(清华大学的开放式双语对话语言模型排16,这个排行榜仅限于授权给这个团队API权限的模型里)。图二:所有非平局A对B战斗中,模型A获胜比例—————————排行榜的下半部分团队着重提了他们重点观察的GooglePaLM2模型,我总结了一下大概这么几个点:1)总体情况还可:在过去的两周里,PaLM2与其他16个聊天机器人进行了约1.8k次匿名对战,目前在排行榜上排名第6。除了Vicuna-13B(Vicuna的Elo分数比PaLM2高12分,即Vicuna1054vs.PaLM21042,根据ELO分数来看几乎是虚拟平局)之外,它在所有开源聊天机器人中排名最高。2)遇强则强,遇弱则弱,好似某个红衣球队,名字我不提:PaLM2在与前4名选手(即GPT-4、Claude-v1、ChatGPT、Claude-instant-v1)对战时表现更好,与Vicuna的对战中赢得了53%的比赛,但在与实力较弱的选手对战时表现较差。3)觉悟较高:PaLM2似乎受到的监管比其他模型更为严格。在许多用户对话中,当用户提问PaLM2不确定或不适合回答的问题时,PaLM2比其他模型更可能选择不回应。下面这个数据mademyday:在所有成对对战中,PaLM2由于拒绝回答而输掉了20.9%的对战,并且由于拒绝回答而输给不属于前四名(GPT-4,Claude-v1,ChatGPT,Claude-instant-v1)的聊天机器人30.8%的对战。
在Telegram中查看相关推荐
🔍 发送关键词来寻找群组、频道或视频。
启动SOSO机器人