聊天机器人竞技场排行榜 (第4周) : PaLM 2 的表现

聊天机器人竞技场排行榜(第4周):PaLM2的表现是一个大型语言模型的基准平台，会让两个匿名AI以随机的方式并排聊天，由用户投票更好的一方，再基于Elo评级生成排行榜。新加入的谷歌PaLM2在过去两周与其它聊天机器人进行了大约8160场匿名战斗，在用户评级后排名第6。PaLM2比其它模型受到了更严格的监管。PaLM2由于拒绝回答而输掉了20.9%的战斗。PaLM2拒绝了许多角色扮演问题，即使用户要求它模拟Linux终端或编程语言解释器。有时PaLM2还会拒绝回答简单且无争议的事实问题——比如它会拒绝回答"天空为什么是蓝的?"。目前提供的PaLM2版本的多语言能力受限，往往会拒绝回答非英语问题，包括中文、西班牙语和希伯来语等流行语言。PaLM2在仅英语排行中第5，在非英语排行中第16。https://lmsys.org/blog/2023-05-25-leaderboard/频道：@TestFlightCN

在Telegram中查看

相关推荐

比ChatGPT还好用？谷歌医疗聊天机器人几乎与医生表现相当

比ChatGPT还好用？谷歌医疗聊天机器人几乎与医生表现相当谷歌的Med-PaLM2人工智能模型据称自4月以来一直在一些医院中进行测试。该工具旨在回答有关医疗信息问题，是PaLM2模型的变体，PaLM2则是谷歌人工智能Bard的基础模型。据一份内部电子邮件显示，谷歌认为该工具对医疗基础设施不够完善的国家特别有帮助，比如病人接触到医生机会有限的地方。PC版：https://www.cnbeta.com.tw/articles/soft/1369909.htm手机版：https://m.cnbeta.com.tw/view/1369909.htm

谷歌更新AI聊天机器人Bard，取消等待名单

谷歌更新AI聊天机器人Bard，取消等待名单今日，谷歌还发布了最新的PaLM2人工智能（AI）语言模型。而Bard正在使用PaLM2，可以显著提高回答的准确度和可用性。谷歌称，升级后的Bard特别擅长处理编码查询，包括调试和解释20多种语言的代码块。不仅可以提供来源，还可以解释某个代码块。此外，谷歌还表示，Bard将来还会支持由Adobe支持的人工智能图像生成，以及与第三方Web服务整合，如Instacart和OpenTable等。...PC版：https://www.cnbeta.com.tw/articles/soft/1359061.htm手机版：https://m.cnbeta.com.tw/view/1359061.htm

4）孩子还在成长中：目前提供的 PaLM 2 的多语言能力有限，且提供的 PaLM 2 的推理能力不尽如人意

4）孩子还在成长中：目前提供的PaLM2的多语言能力有限，且提供的PaLM2的推理能力不尽如人意（团队还分别计算了所有模型在仅考虑英语对话和仅考虑非英语对话时的Elo分数，如图3所示。结果在非英语排行榜上，PaLM2排名第16）——————————团队补充的观察1）SmallModers更具有竞争力：团队观察到一些较小的模型，包括vicuna-7B和mpt-7b-chat，在排行榜上取得了高分。与参数翻倍的较大模型相比，这些较小的模型表现优异。他们推测高质量的预训练和微调数据集比模型大小更为关键。而对于更复杂的推理任务或智力问答上，较大的模型仍可能表现更好。因此，在预训练和微调阶段策划时，高质量数据集似乎是在保持模型质量高的同时减小模型大小的关键方法。

今天的hacker news第2个热点非常有意思：）值得大家一看：

今天的hackernews第2个热点非常有意思：）值得大家一看：LMSYSOrg这个组织最近开放了Chatbot领域的“混聊大内斗”，并每周都公开排行榜。竞技模式：他们把所有授予他们API接口的模型放到一块，每个模型随机匹配到与其它模型进行聊天对话。这些对话采用的是自然语言，而不是预定义的对话集合。在每次对话结束后，旁观的用户、开发者等等可以对两个参与对话的模型进行投票，以表达他们对这两个模型表现的偏好。投票是匿名的，每个用户只能对同一对话投一次票。投票结果被用来计算Elo评分，Elo评分越高的模型被认为是更强大的语言模型。图一：4月24日至5月24日之间的投票结果，投票人数27k（清华大学的开放式双语对话语言模型排16，这个排行榜仅限于授权给这个团队API权限的模型里）。图二：所有非平局A对B战斗中，模型A获胜比例—————————排行榜的下半部分团队着重提了他们重点观察的GooglePaLM2模型，我总结了一下大概这么几个点：1）总体情况还可：在过去的两周里，PaLM2与其他16个聊天机器人进行了约1.8k次匿名对战，目前在排行榜上排名第6。除了Vicuna-13B（Vicuna的Elo分数比PaLM2高12分，即Vicuna1054vs.PaLM21042，根据ELO分数来看几乎是虚拟平局）之外，它在所有开源聊天机器人中排名最高。2）遇强则强，遇弱则弱，好似某个红衣球队，名字我不提：PaLM2在与前4名选手（即GPT-4、Claude-v1、ChatGPT、Claude-instant-v1）对战时表现更好，与Vicuna的对战中赢得了53%的比赛，但在与实力较弱的选手对战时表现较差。3）觉悟较高：PaLM2似乎受到的监管比其他模型更为严格。在许多用户对话中，当用户提问PaLM2不确定或不适合回答的问题时，PaLM2比其他模型更可能选择不回应。下面这个数据mademyday：在所有成对对战中，PaLM2由于拒绝回答而输掉了20.9%的对战，并且由于拒绝回答而输给不属于前四名（GPT-4，Claude-v1，ChatGPT，Claude-instant-v1）的聊天机器人30.8%的对战。

谷歌发布AI语言模型PaLM 2 挑战OpenAI的GPT-4

谷歌发布AI语言模型PaLM2挑战OpenAI的GPT-4皮查伊称：“PaLM2在逻辑和推理方面进行了广泛的训练，具有极强的逻辑和推理能力。同时，它还接受了多语言文本训练，支持100多种语言。谷歌在2022年4月首次发布了PaLM语言模型。谷歌高级研究总监斯拉夫·彼得罗夫（SlavPetrov）称，最新的PaLM2在一系列基于文本的任务上表现更好，包括推理、编码和翻译等。他说：“与PaLM1相比，PaLM2有了显著提升。”对于PaLM2，谷歌工程师在一份研究论文中称，该系统的语言熟练程度“足以教授这门语言”。与其他大型语言模型一样，PaLM2与其说是一款单一产品，不如说是一系列产品。它拥有不同的版本，可部署在消费者和企业环境中。确切而言，PaLM2分为四种规格，从小到大依次为Gecko、Otter、Bison和Unicorn，依据特定领域的数据进行了微调，以执行企业客户的特定任务。其中，体积最小的Gecko可以在手机上运行，每秒可处理20个Token，大约相当于16或17个单词。谷歌还称，PaLM2已被用于支持自家的25项功能和产品，其中包括AI聊天机器人Bard，以及谷歌文档、幻灯片和工作表等。...PC版：https://www.cnbeta.com.tw/articles/soft/1359045.htm手机版：https://m.cnbeta.com.tw/view/1359045.htm

【谷歌计划于周三推出一款通用大型语言模型PaLM 2】

【谷歌计划于周三推出一款通用大型语言模型PaLM2】5月9日消息，据财联社报道，谷歌将于美东时间周三举行一年一度的年度开发者大会。文件显示，谷歌本次活动的主题是：人工智能如何“帮助人们充分发挥潜力”，并介绍谷歌在人工智能领域的一系列技术更新，包括提供对谷歌自家聊天机器人Bard和Search的“生成体验”。根据谷歌的内部文件，在本次大会上，谷歌将推出其最新、最先进的通用大型语言模型PaLM2。PaLM2包含100多种语言，一直在谷歌内部运行，代号为“统一语言模型。它能够执行广泛的编码和数学测试，以及创造性写作测试和分析。谷歌于2022年4月首次宣布了其PaLM语言模型。今年3月，该公司为PaLM推出了一个API，同时推出了一系列人工智能企业工具，据称这些工具将帮助企业“从简单的自然语言提示中生成文本、图像、代码、视频、音频等”。

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人