今天的hacker news第2个热点非常有意思:)值得大家一看:
今天的hacker news第2个热点非常有意思:)值得大家一看: LMSYS Org这个组织最近开放了Chatbot 领域的“混聊大内斗”,并每周都公开排行榜。 竞技模式:他们把所有授予他们API接口的模型放到一块,每个模型随机匹配到与其它模型进行聊天对话。这些对话采用的是自然语言,而不是预定义的对话集合。在每次对话结束后,旁观的用户、开发者等等可以对两个参与对话的模型进行投票,以表达他们对这两个模型表现的偏好。 投票是匿名的,每个用户只能对同一对话投一次票。投票结果被用来计算 Elo 评分,Elo 评分越高的模型被认为是更强大的语言模型。 图一:4月24日至5月24日之间的投票结果,投票人数27k(清华大学的开放式双语对话语言模型排16,这个排行榜仅限于授权给这个团队API权限的模型里)。 图二:所有非平局 A 对 B 战斗中,模型 A 获胜比例 排行榜的下半部分团队着重提了他们重点观察的Google PaLM 2模型,我总结了一下大概这么几个点: 1)总体情况还可:在过去的两周里,PaLM 2 与其他 16 个聊天机器人进行了约 1.8k 次匿名对战,目前在排行榜上排名第 6。除了 Vicuna-13B(Vicuna 的 Elo 分数比 PaLM 2 高 12 分,即 Vicuna 1054 vs. PaLM 2 1042,根据 ELO 分数来看几乎是虚拟平局)之外,它在所有开源聊天机器人中排名最高。 2)遇强则强,遇弱则弱,好似某个红衣球队,名字我不提:PaLM 2 在与前 4 名选手(即 GPT-4、Claude-v1、ChatGPT、Claude-instant-v1)对战时表现更好,与 Vicuna 的对战中赢得了 53% 的比赛,但在与实力较弱的选手对战时表现较差。 3)觉悟较高:PaLM 2 似乎受到的监管比其他模型更为严格。在许多用户对话中,当用户提问 PaLM 2 不确定或不适合回答的问题时,PaLM 2 比其他模型更可能选择不回应。下面这个数据made my day:在所有成对对战中,PaLM 2 由于拒绝回答而输掉了 20.9% 的对战,并且由于拒绝回答而输给不属于前四名(GPT-4,Claude-v1,ChatGPT,Claude-instant-v1)的聊天机器人 30.8% 的对战。
在Telegram中查看相关推荐

🔍 发送关键词来寻找群组、频道或视频。
启动SOSO机器人