4)孩子还在成长中:目前提供的 PaLM 2 的多语言能力有限,且提供的 PaLM 2 的推理能力不尽如人意

4)孩子还在成长中:目前提供的PaLM2的多语言能力有限,且提供的PaLM2的推理能力不尽如人意(团队还分别计算了所有模型在仅考虑英语对话和仅考虑非英语对话时的Elo分数,如图3所示。结果在非英语排行榜上,PaLM2排名第16)——————————团队补充的观察1)SmallModers更具有竞争力:团队观察到一些较小的模型,包括vicuna-7B和mpt-7b-chat,在排行榜上取得了高分。与参数翻倍的较大模型相比,这些较小的模型表现优异。他们推测高质量的预训练和微调数据集比模型大小更为关键。而对于更复杂的推理任务或智力问答上,较大的模型仍可能表现更好。因此,在预训练和微调阶段策划时,高质量数据集似乎是在保持模型质量高的同时减小模型大小的关键方法。

相关推荐

封面图片

Google最新发布PaLM 2,一种新的语言模型,具有更好的多语言和推理能力,同时比其前身PaLM更节省计算资源。

Google最新发布PaLM2,一种新的语言模型,具有更好的多语言和推理能力,同时比其前身PaLM更节省计算资源。PaLM2综合了多项研究进展,包括计算最优的模型和数据规模、更多样化和多语言的数据集、以及更有效的模型架构和目标函数。PaLM2在多种任务和能力上达到了最先进的性能,包括语言水平考试、分类和问答、推理、编程、翻译和自然语言生成等。PaLM2还展示了强大的多语言能力,能够处理数百种语言,并在不同语言之间进行翻译和解释。PaLM2还考虑了负责任的使用问题,包括推理时控制毒性、减少记忆化、评估潜在的伤害和偏见等。

封面图片

聊天机器人竞技场排行榜 (第4周) : PaLM 2 的表现

聊天机器人竞技场排行榜(第4周):PaLM2的表现是一个大型语言模型的基准平台,会让两个匿名AI以随机的方式并排聊天,由用户投票更好的一方,再基于Elo评级生成排行榜。新加入的谷歌PaLM2在过去两周与其它聊天机器人进行了大约8160场匿名战斗,在用户评级后排名第6。PaLM2比其它模型受到了更严格的监管。PaLM2由于拒绝回答而输掉了20.9%的战斗。PaLM2拒绝了许多角色扮演问题,即使用户要求它模拟Linux终端或编程语言解释器。有时PaLM2还会拒绝回答简单且无争议的事实问题——比如它会拒绝回答"天空为什么是蓝的?"。目前提供的PaLM2版本的多语言能力受限,往往会拒绝回答非英语问题,包括中文、西班牙语和希伯来语等流行语言。PaLM2在仅英语排行中第5,在非英语排行中第16。https://lmsys.org/blog/2023-05-25-leaderboard/频道:@TestFlightCN

封面图片

今天的hacker news第2个热点非常有意思:)值得大家一看:

今天的hackernews第2个热点非常有意思:)值得大家一看:LMSYSOrg这个组织最近开放了Chatbot领域的“混聊大内斗”,并每周都公开排行榜。竞技模式:他们把所有授予他们API接口的模型放到一块,每个模型随机匹配到与其它模型进行聊天对话。这些对话采用的是自然语言,而不是预定义的对话集合。在每次对话结束后,旁观的用户、开发者等等可以对两个参与对话的模型进行投票,以表达他们对这两个模型表现的偏好。投票是匿名的,每个用户只能对同一对话投一次票。投票结果被用来计算Elo评分,Elo评分越高的模型被认为是更强大的语言模型。图一:4月24日至5月24日之间的投票结果,投票人数27k(清华大学的开放式双语对话语言模型排16,这个排行榜仅限于授权给这个团队API权限的模型里)。图二:所有非平局A对B战斗中,模型A获胜比例—————————排行榜的下半部分团队着重提了他们重点观察的GooglePaLM2模型,我总结了一下大概这么几个点:1)总体情况还可:在过去的两周里,PaLM2与其他16个聊天机器人进行了约1.8k次匿名对战,目前在排行榜上排名第6。除了Vicuna-13B(Vicuna的Elo分数比PaLM2高12分,即Vicuna1054vs.PaLM21042,根据ELO分数来看几乎是虚拟平局)之外,它在所有开源聊天机器人中排名最高。2)遇强则强,遇弱则弱,好似某个红衣球队,名字我不提:PaLM2在与前4名选手(即GPT-4、Claude-v1、ChatGPT、Claude-instant-v1)对战时表现更好,与Vicuna的对战中赢得了53%的比赛,但在与实力较弱的选手对战时表现较差。3)觉悟较高:PaLM2似乎受到的监管比其他模型更为严格。在许多用户对话中,当用户提问PaLM2不确定或不适合回答的问题时,PaLM2比其他模型更可能选择不回应。下面这个数据mademyday:在所有成对对战中,PaLM2由于拒绝回答而输掉了20.9%的对战,并且由于拒绝回答而输给不属于前四名(GPT-4,Claude-v1,ChatGPT,Claude-instant-v1)的聊天机器人30.8%的对战。

封面图片

谷歌发布AI语言模型PaLM 2 挑战OpenAI的GPT-4

谷歌发布AI语言模型PaLM2挑战OpenAI的GPT-4皮查伊称:“PaLM2在逻辑和推理方面进行了广泛的训练,具有极强的逻辑和推理能力。同时,它还接受了多语言文本训练,支持100多种语言。谷歌在2022年4月首次发布了PaLM语言模型。谷歌高级研究总监斯拉夫·彼得罗夫(SlavPetrov)称,最新的PaLM2在一系列基于文本的任务上表现更好,包括推理、编码和翻译等。他说:“与PaLM1相比,PaLM2有了显著提升。”对于PaLM2,谷歌工程师在一份研究论文中称,该系统的语言熟练程度“足以教授这门语言”。与其他大型语言模型一样,PaLM2与其说是一款单一产品,不如说是一系列产品。它拥有不同的版本,可部署在消费者和企业环境中。确切而言,PaLM2分为四种规格,从小到大依次为Gecko、Otter、Bison和Unicorn,依据特定领域的数据进行了微调,以执行企业客户的特定任务。其中,体积最小的Gecko可以在手机上运行,每秒可处理20个Token,大约相当于16或17个单词。谷歌还称,PaLM2已被用于支持自家的25项功能和产品,其中包括AI聊天机器人Bard,以及谷歌文档、幻灯片和工作表等。...PC版:https://www.cnbeta.com.tw/articles/soft/1359045.htm手机版:https://m.cnbeta.com.tw/view/1359045.htm

封面图片

谷歌将在开发者大会上发布PaLM 2 展示创意写作和编码能力

谷歌将在开发者大会上发布PaLM2展示创意写作和编码能力这份内部文件显示,谷歌将推出其最新、最先进的LLM——PaLM2。PaLM2支持100多种语言,在内部以“统一语言模型”的代号运行。谷歌还对其进行了广泛的编码和数学测试,以及创意性的写作测试和分析。文件还显示,在这次活动上,谷歌将宣布人工智能如何“帮助人们充分发挥其潜力”的主题,包括Bard和搜索的“生成式体验”。谷歌及其母公司Alphabet首席执行官桑达尔·皮查伊(SundarPichai)将向现场的开发者发表演讲,介绍该公司在人工智能领域取得的进步。谷歌此次更新正值人工智能领域的竞争加剧之际,该公司和微软都在竞相将聊天人工智能技术融入自己的产品中。微软正在利用对ChatGPT创建者OpenAI的投资来支持其必应搜索引擎,而谷歌也迅速行动起来,试图在不同的团队中整合其Bard技术,并推出自己的LLM。谷歌于2022年4月首次宣布推出PaLMLanguage模型。今年3月,该公司推出了一款适用于PaLM的API以及一系列人工智能企业工具,称这将帮助企业“通过简单的自然语言提示生成文本、图像、代码、视频、音频等”。上个月,谷歌称其名为“Med-PaLM2”的医学LLM可以回答“专家医生级别”的医学检查问题,准确率达85%。文件显示,谷歌还计划分享Bard和搜索方面取得的进展,提供所谓的“生成式体验”,包括将Bard用于编码、数学和“逻辑”,以及扩展到日语和韩语。谷歌始终在开发一系列功能更强大的Bard模型,并于3月份正式将其作为实验推出。另一份内部文件显示,谷歌还在内部开发了一个名为“Multi-Bard”的多模态模型版本,它使用了更大的数据集,可以帮助解决复杂的数学和编码问题。此外,谷歌还测试了名为“BigBard”和“GiantBard”的版本。谷歌还计划扩展其“WorkspaceAIcollaborator”,包括在工作表中讨论模板生成,以及在幻灯片和Meet产品中讨论图像生成。今年3月,该公司表示,作为测试的一部分,它将允许一小部分用户访问Gmail和GoogleDocs中的人工智能功能,并计划在其会议、工作表和幻灯片应用程序中引入更多生成式人工智能功能。其中一张图片显示了一个带有聊天框的幻灯片侧边栏,允许用户输入文本,并可以选择根据这些文字创建图像。其他更新包括图像识别工具GoogleLens的用例。继去年允许用户询问他们正在观看的图像中的内容后,谷歌将展示对摄像头和语音的“多搜索”技术的改进。此前有报道称,在人工智能领域之外,谷歌将展示其新款可折叠手机PixelFold。该公司声称PixelFold将拥有“可折叠手机上最耐用的铰链”,并将提供手机以旧换新选项。谷歌宣称,PixelFold的最大卖点为防水和只有口袋大小。(小小)...PC版:https://www.cnbeta.com.tw/articles/soft/1358693.htm手机版:https://m.cnbeta.com.tw/view/1358693.htm

封面图片

问医断病这届AI行不行?科学家评估大型语言模型回答医学问题的能力

问医断病这届AI行不行?科学家评估大型语言模型回答医学问题的能力图为研究团队的方法和现有技术的比较。Flan-PaLM540B模型在MedQA,MedMCQA和PubMedQA数据集上均超过了以往最先进的SOTA,每列上方显示的是准确率百分比。图片来源:《自然》就其本身而言,人工智能(AI)给出的答案是准确的。但英国巴斯大学教授詹姆斯·达文波特指出了医学问题和实际行医之间的区别,他认为“行医并不只是回答医学问题,如果纯粹是回答医学问题,我们就不需要教学医院,医生也不需要在学术课程之后接受多年的培训了。”鉴于种种疑惑,在《自然》杂志新近发表的一篇论文中,全球顶尖的人工智能专家们展示了一个基准,用于评估大型自然语言模型能多好地解决人们的医学问题。现有的模型尚不完善最新的这项评估,来自Google研究院和深度思维公司。专家们认为,人工智能模型在医学领域有许多潜力,包括知识检索和支持临床决策。但现有的模型尚不完善,例如可能会编造令人信服的医疗错误信息,或纳入偏见加剧健康不平等。因此才需要对其临床知识进行评估。相关的评估此前并非没有。然而,过去通常依赖有限基准的自动化评估,例如个别医疗测试得分。这转化到真实世界中,可靠性和价值都有欠缺。而且,当人们转向互联网获取医疗信息时,他们会遭遇“信息超载”,然后从10种可能的诊断中选择出最坏的一种,从而承受很多不必要的压力。研究团队希望语言模型能提供简短的专家意见,不带偏见、表明其引用来源,并合理表达出不确定性。5400亿参数的LLM表现如何为评估LLM编码临床知识的能力,Google研究院的专家希库费·阿孜孜及其同事探讨了它们回答医学问题的能力。团队提出了一个基准,称为“MultiMedQA”:它结合了6个涵盖专业医疗、研究和消费者查询的现有问题回答数据集以及“HealthSearchQA”——这是一个新的数据集,包含3173个在线搜索的医学问题。团队随后评估了PaLM(一个5400亿参数的LLM)及其变体Flan-PaLM。他们发现,在一些数据集中Flan-PaLM达到了最先进水平。在整合美国医师执照考试类问题的MedQA数据集中,Flan-PaLM超过此前最先进的LLM达17%。不过,虽然Flan-PaLM的多选题成绩优良,进一步评估显示,它在回答消费者的医疗问题方面存在差距。专精医学的LLM令人鼓舞为解决这一问题,人工智能专家们使用一种称为设计指令微调的方式,进一步调试Flan-PaLM适应医学领域。同时,研究人员介绍了一个专精医学领域的LLM——Med-PaLM。设计指令微调是让通用LLM适用新的专业领域的一种有效方法。产生的模型Med-PaLM在试行评估中表现令人鼓舞。例如,Flan-PaLM被一组医师评分与科学共识一致程度仅61.9%的长回答,Med-PaLM的回答评分为92.6%,相当于医师作出的回答(92.9%)。同样,Flan-PaLM有29.7%的回答被评为可能导致有害结果,Med-PaLM仅5.8%,相当于医师所作的回答(6.5%)。研究团队提到,结果虽然很有前景,但有必要作进一步评估,特别是在涉及安全性、公平性和偏见方面。换句话说,在LLM的临床应用可行之前,还有许多限制要克服。...PC版:https://www.cnbeta.com.tw/articles/soft/1371591.htm手机版:https://m.cnbeta.com.tw/view/1371591.htm

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人