谷歌新Bard逆袭GPT-4冲上LLM排行榜第二 Jeff Dean高呼我们回来了

谷歌新Bard逆袭GPT-4冲上LLM排行榜第二 Jeff Dean高呼我们回来了 基于此,Bard相较于3月份的首次亮相,不仅在表现上有了显著的提升,而且还具备了更多的能力。可以看到,在最新的Gemini Pro-scale加持下,Bard直接蹿升到了排行榜第二名的位置。一口气把之前的两款GPT-4模型斩于马下,甚至和排名第一的GPT-4 Turbo的差距也非常小。虽然Jeff Dean并没有具体阐述“scale”的含义,但从名称上推测,很可能是一个比初代Gemini Pro规模更大的版本。而根据前段时间外媒曝出的内部邮件,搭载Gemini Ultra的Bard Advanced已经全面开放给Google员工试用。也就是说,距离Google最强模型的上线,已经不远了。随着Google对Gemini Pro更新后不断大幅上涨的表现,也让所有人对完全体Gemini Ultra的能力有了更多的期待。不过,新推出的Bard目前只接受了约3,000次评价,而GPT-4的评价次数已高达30,000次。因此,这个结果后续很可能还会发生变动。但不管怎样,这对于Google来说是一项令人瞩目的成就,也让人对即将发布的、预期将超过Gemini Pro-Scale性能的最强AI模型Gemini Ultra充满期待。GoogleBard超越GPT-4跃居第二简单介绍一下,这个由UC伯克利主导,CMU,UCSD等顶级高校共同参与创建的聊天机器人竞技场“Chatbot Arena”,是学术圈内一个很权威的大模型对话能力排行榜。榜单通过类似Moba游戏中的“排位赛”机制,让各家大模型通过PvP的方式来排出性能高低。期间,用户会与模型(不知道具体型号)进行互动,并选择他们更喜欢的回答。而这些投票将会决定模型在排行榜上的名次。这种方式能够有效地避免很多PvE基准测试中可能出现的,通过“刷题”来提高成绩的问题,被业界认为是一个比较客观的大模型能力排行榜。为了便于区分,LMSYS Org指出,目前Gemini Pro市面上总共有3个版本:- Gemini Pro API:用户可以通过Google云的Vertex AI API进行访问- Gemini Pro(dev)API:开发者API可以通过Google AI Studio进行访问- Bard(1月4日更新的Gemini Pro):是目前唯一可以访问到1月24日更新的Gemini Pro的方式同时,GoogleBard项目的高级总监Sadovsky也透露,排行榜上的Bard和Gemini Pro(API)是两个在微调层面不同的模型,而且Bard可以检索互联网上的信息。在ChatBot Arena中,1月24号更新的Bard由于支持检索互联网,相比于之前放出的Gemini Pro(API)对于实时信息问题的回复提升巨大。从Google的这波更新可以看出,Gemini Pro的潜力似乎远远没有被完全释放,希望Google能再接再厉,对OpenAI一家独大的格局形成挑战。以下是1月14号更新的Bard在ChatBot Arena中的成绩的明细:模型A相对于模型B在所有非平局对决中获胜的比例不同模型组合间对决的次数统计(排除平局情况)通过1000轮随机抽样对Elo评分进行的自举法(Bootstrap)估计在假设等概率抽样和不存在平局的情况下,相对于所有其他模型的平均胜率Elo评分系统Elo等级分制度(Elo rating system)是一种计算玩家相对技能水平的方法,广泛应用在竞技游戏和各类运动当中。其中,Elo评分越高,那么就说明这个玩家越厉害。比如英雄联盟、Dota 2以及吃鸡等等,系统给玩家进行排名的就是这个机制。举个例子,当你在英雄联盟里面打了很多场排位赛后,就会出现一个隐藏分。这个隐藏分不仅决定了你的段位,也决定了你打排位时碰到的对手基本也是类似水平的。而且,这个Elo评分的数值是绝对的。也就是说,当未来加入新的聊天机器人时,我们依然可以直接通过Elo的评分来判断哪个聊天机器人更厉害。具体来说,如果玩家A的评分为Ra,玩家B的评分为Rb,玩家A获胜概率的精确公式(使用以10为底的logistic曲线)为:然后,玩家的评分会在每场对战后线性更新。假设玩家A(评分为Ra)预计获得Ea分,但实际获得Sa分。更新该玩家评分的公式为:网友热议对此,网友提问:现在能够访问的Bard就是这个排名第二的Bard了吗?Google官方回复,是的,而且现在访问的Bard比排行榜的上的Bard还能支持更多的像地图扩展等应用。不过还是有网友吐槽,即使在PvP排行榜上Bard已经取得了很好的成绩,但是对于理解用户需求和解决实际问题的能力,Bard和GPT-4依然还有很大差距。也有网友认为,用能联网的Bard和离线的GPT-4打有失公平。甚至,就这样还没打过……而最有意思的,还要数网友在排行榜中发现的“华点”了:号称是GPT-4最大竞品的Claude居然越更新越弱了。对此,之前有分析认为,Anthropic一直在大力发展的与人类对齐,会严重影响模型的性能。GPT-4 Turbo超长上下文A/B测试有趣的是,这个连Jeff Dean都亲自下场的“刷榜”,正巧就在OpenAI连发5款新模型的第二天。根据OpenAI的介绍,新版GPT-4 Turbogpt-4-0125-preview,不仅大幅改善了模型“偷懒”的情况,而且还极大地提升了代码生成的能力。不过,正如大家对Bard的怀疑,GPT-4这次到底有没有变强也有待验证。对此,AI公司Smol的创始人Shawn Wang,就在超过100k单词的超长上下文中,对比测试了新旧GPT4-Turbo的总结能力。Wang表示,两次测试使用的是完全相同提示词,以及基本相同的语料库。虽然没有严格严格,但每个模型都进行了超过300次的API调用,因此对于总结任务而言,这一结果还是具有一定参考价值的。结果显示,2024年1月的GPT4-Turbo花费了19分钟来生成20,265个单词,相比之下,2023年11月的用16分钟生成了18,884个单词。也就是说,新模型的生成速度大约慢了 18%,且生成文本的长度平均偏长约7%。质量方面:- 2024年1月的模型在主题选择上略有改善,但仍存在问题- 2023年11月的模型会产生更多错误信息- 2024年1月的模型在总结中添加小标题的能力略有提升- 2024年1月的模型出现了一次严重的格式错误,而这在之前是极为罕见的- 2023年11月的模型文本详情更加丰富总体而言,新版GPT4-Turbo在总结这一应用场景上有所退步。左侧:2023年11月;右侧:2024年1月(左右滑动查看全部)OpenAI最后的“开源遗作”两周年不得不说,AI领域的发展过于迅猛,甚至让人对时间的流速都产生了错觉。今天,英伟达高级科学家Jim Fan发推纪念了InstructGPT发布二周年。在这里,OpenAI定义了一套标准流程:预训练 -> 监督式微调 -> RLHF。直到今天,这依然是大家遵循的基本策略(尽管有些许变化,比如DPO)。它不仅仅是大语言模型从学术探索(GPT-3)到转化为具有实际影响力的产品(ChatGPT)的关键转折点,而且也是最后一篇OpenAI详细说明他们如何训练前沿模型的论文。论文地址: InstructGPT在2022年的NeurIPS会议上首次亮相,但它并不是RLHF的发明者。实际上,相关博客将读者引向了OpenAI团队在2017年完成的原始RLHF研究。这项研究最初的目的是解决模拟机器人领域中难以明确定义的任务通过一名人类标注者提供的900个二选一偏好,RLHF让一个简单的“跳跃”机器人在模拟环境中学会了后空翻。论文地址: 模型提供了三种规模:1.3B、6B、175B。与旧的、需要复杂提示设计的GPT-3-175B相比,标注者明显更喜欢Instruct-1.3B。微软最知名的“小模型”Phi-1也是1.3B。- InstructGPT展示了如何精彩地呈现研究成果。三个步骤的图表清晰易懂,并且成为AI领域最标志性的图像之一。引言部分直接了当,用粗体突出了8个核心观点。对局限性和偏见的讨论实事求是、坦诚直接。 ... PC版: 手机版:

相关推荐

封面图片

ℹ正面对决 GPT-4 的 Google Gemini AI 模型正式发表,将融入 Bard 与 Pixel 8 Pro 之中#

ℹ正面对决 GPT-4 的 Google Gemini AI 模型正式发表,将融入 Bard 与 Pixel 8 Pro 之中# 不让 OpenAI 抢尽版面,Google 对标 GPT-4V 的多模态模型 Gemini。不出则以,一出就直接推出 Ultra / Pr...

封面图片

Google DeepMind 和谷歌研究院首席科学家 Jeff Dean 在 X 上表示,由 Gemini Pro 模型提供支

Google DeepMind 和谷歌研究院首席科学家 Jeff Dean 在 X 上表示,由 Gemini Pro 模型提供支持的 Bard 首次亮相就在 Imsys 排行榜排名第二,超越了 GPT-4,Bard + Gemini Ultra 即将发布。 LMSYS Org 是一个开放的研究组织,由加州大学伯克利分校的学生和教师与加州大学圣地亚哥分校和卡耐基梅隆大学合作创立。 via 匿名 标签: #Bard #AI 频道: @GodlyNews1 投稿: @GodlyNewsBot

封面图片

LLM排行榜更新:谷歌Bard超过GPT-4 中国玩家未进前十

LLM排行榜更新:谷歌Bard超过GPT-4 中国玩家未进前十 排行榜介绍这个LLMs 排行榜(Chatbot Arena基准平台)是由 UC伯克利研究人员主导的LMSYS (Large Model Systems Organization)组织发起的。通过在LLMs 间进行随机匿名的 1V1 battle 方式,并基于 Elo 评级系统得出排名。如下图所示,你可以随便问一个问题,左侧是模型A的回答,右侧是模型B的回答。然后你可以给这两个模型的回答打分,一共有四个选项“A更好;B更好;A和B一样好;A和B一样差”,如果一轮聊天判断不出来,你可以继续聊天,直到选出你认为更好的,但如果在聊天过程中暴露了大模型的身份,则投票将不被计算在内。下图显示了模型A在对战模型B时获胜几率(不包含平局 )的比例分布图:下图显示了每种模型组合的battle次数(无平局))下图显示了单个模型相对于所有其他模型的平均胜率:OpenAI霸榜,中国玩家未进前十下图是该榜单目前排名的 Top 10,可以看出GPT-系列模型还是占据绝对优势的(前四名中占据了其三),而 Anthropic旗下的 Claude 系列模型则是在前十中占据了三席。号称是欧洲版OpenAI的 Mistral公司,这次也有两个模型进入前十。另外请看上图最右侧一列,排名 Top 10的模型中,有9家都是闭源的私有模型,这说明开源模型还是有一段路要走。遗憾的是中国玩家的大语言模型没有进入前十。其中排名最高的是李开复创业公司零一万物旗下的 Yi-34B-Chat模型,位居13名。其次是阿里旗下的 通义千问 Qwen-14B-chat模型,排名36:再之后是清华教授唐杰创业公司智谱AI旗下的ChatGLM系列模型:需要说明三点:1、有很多中国大厂研发的模型可能没有参与到该榜单排名;2、该榜单是面向全球公众的,所以选择用英文来聊天的用户要远比中文多,这可能对中国玩家研发的大语言模型不利;3、该榜单仅仅统计了20w用户的随机提问和聊天,代表了用户和LLMs聊天的真实评价,但由于用户的提问和专业程度参差不齐,所以评价具有一定的主观性。最后我们说回Google,在裁员和科学家离职创业的内忧外患之际(详情请移步Google危机大爆发!科学家纷纷离职创业、员工裁员不断...),Google24年究竟能不能完成“帝国反击战”呢?让我们拭目以待吧! ... PC版: 手机版:

封面图片

谷歌弃Bard发布超大杯Gemini 全面对标GPT-4

谷歌弃Bard发布超大杯Gemini 全面对标GPT-4 Gemini是品牌总称,相当于OpenAI的ChatGPT;Gemini Advanced付费服务,对应ChatGPT Plus;Gemini Ultra模型,对标的是GPT-4;切换到Gemini Advanced界面的操作也和ChatGPT类似,只需点击左上角的选项即可:在价格方面,Gemini Advanced的定价也是颇有意思19.99美元/月,比ChatGPT Plus(20美元/月)便宜了亿点点。不过Google也给出了一个小福利,订阅后的前两个月,免!费!!并且不会像GPT-4那样有每小时使用次数限制,可以放开了用。不仅如此,Google这次还顺带在Android手机里推出了Gemini的APP,特定的Android机长按电源键等按钮可以“直达”的那种:iOS用户也不用着急,Gemini将在未来几周会出现在Google App中,届时的打开方式会是这样的:毕竟Google此前发布Gemini Ultra这款大模型之际,便是一上来就在32个基准测试中拿下30个SOTA,并且第一个在MMLU基准上达到人类专家水平。现如今产品化的它终于上线,也是让众多网友纷涌而至,一时间也是出现了短暂的宕机。那么加持了Google自家最强大模型的Gemini Advanced,效果到底如何?我们在第一时间成功开通了试用。实测Gemini Advanced虽然Google声明目前只开放英语支持,但实测用中文提问,它不但能懂也能用中文回答。既然是Google出品,肯定少不了考验它的联网搜索能力。本来想试试能不能当吃瓜神器,结果因为Google严格的伦理道德限制,Gemini Advanced当场拒绝作答。那么退而求其次,问问纯事实不带价值判断的,它的表现就非常亮眼了。回答中,标绿色的语句展开就可以看到引用来源。标黄色的语句则表示没有找到明确引用来源,可以尝试进一步核实。AI在回答中生成的表格数据,也可以点击“Export to Sheets”一键导入到Google Docs进一步编辑处理,在工作场景可以说是非常实用了。接下来,还可以在“扩展程序”中打开对其他Google服务的支持,如地图、Gmail邮箱、YouTube视频。关联邮箱账号后,Gemini Adavanced就成变你的个人AI管家,可以帮你管理不少事情了,如找出可退订垃圾邮件。不过很可惜,扩展程序目前还不支持中文指令。用英语“find me youtube videos……”就可以触发搜索视频功能,辅助学习知识也是一把好手。除了联网搜索、集成应用,Google还特别强调了Gemini Advanced的推理能力。先来一道微软对GPT-4测试时的经典推理题,结果Gemini Advanced不仅成功作答,还考虑了额外的小概率情况。注意界面中的“Show drafts”按钮,代表Gemini Adavanced每次会生成三个“草稿”,并挑选其中最好的展示出来。三个草稿或使用不同的推理方式,或试用不同的写作风格,但答案无一例外都是正确的。如果实在不巧,遇到三个草稿都不满意的情况,也可以选择最右边的全部重来按钮。再注意答案最后面一排按钮,除了常规的点赞、点踩、分享之外,还有两个不常见的新功能。中间的滑块按钮代表“修改回答”,可以选择更短、更长、解释更简单、语气更轻松、语气更正式。尝试选择语气更轻松,整个回答就会变得更口语化。选择更正式,整个回答就像是在考场上答卷了。最后的GoogleG图标,代表使用搜索引擎核查AI生成的答案是否准确,结果同样也会用“绿色-有引用来源”,“黄色-无引用来源”的形式标出来。在更实用的场景中,要求生成一副科技主题春联,Gemini Adavanced也能满足“仄起平收”这个要求。生成代码也是小菜一碟,还“大义灭亲”,把自家广告也给隐藏了。一番体验之后,最后总结一下。Gemini Advanced在超大杯Gemini Ultra模型加持下,能力基本达到GPT-4同级别水平。设计上也更像一个成熟产品,而不是大模型的技术演示Demo了。与Google强大的互联网服务集成后,实用性上也有独到之处。另外在这次发布前,量子位也与GoogleGemini团队有过一次短暂的交流。团队表示这次发布更专注于把Gemini Ultra的语言能力释放到产品中,未来还会持续更新多模态能力、交互性更强的代码功能,以及上传文件分析数据等功能。与Google产品更深入集成,比如直接在Gmail里使用Gemini来回复邮件,目前还在“Coming soon”状态。不过我们要到一张示意图,敬请期待。另外在交流中,Google开发团队特别提醒了一点:由于产品刚刚从Bard改名为Gemini,AI偶尔会出现混乱,需要时间慢慢过渡。原来AI也像人类一样改名会不适应,也是让人哭笑不得了。都是20美元,你pick哪一个?就在这次Gemini Ultra刚刚有消息传出的时候,知名爆料账号Flowers from the future组织了一次投票。同样20美元,GPT-4和Gemini Ultra你会订阅哪个?最终2360人参与,有四成坚定的继续留在GPT-4,只有12.3%选择迁移到Gemini Ultra。不过这次投票是在真正发布之前几天了。在体验过之后,不知道又会有多少人因为产品的功能体验和服务集成“弃O投G”。而就在刚刚,沃顿商学院一位教授表示在他已经提前体验了Gemini Advanced长达6周的时间。他给出的一句评价是:Gemini Advanced显然处于GPT-4的水平,但并没有明显超过它。二者在使用过程中各有各的优势。例如在搜索能力方面,让它俩都去查看一下运动鞋的最新趋势,Gemini Advanced能够搜索YouTube,而ChatGPT使用的是Bing。这表明Gemini Advanced在搜索集成方面有所不同。这位教授还认为Gemini Advanced的界面比GPT-4更流畅,技术错误出现的也较少。它在“个性”上与GPT-4有所不同,更友好和愿意进行文字游戏。尽管两者在个性上有差异,但它们在处理复杂提示时表现出了兼容性。当然,这并非是教授在拿Gemini Advanced和ChatGPT直接做比较,而是借着二者探讨AI在未来可能发展的方向:Gemini Advanced与GPT-4相比的独特优势和劣势表明,模型仍有很大的改进空间,未来我们将继续看到快速的进步。AI的发展浪潮尚未达到顶峰,OpenAI的下一步可能是发布传闻中的GPT-4.5或GPT-5。如今距离ChatGPT发布已经过去14个月还要多,Google终于在模型-应用-生态上都准备好了与之竞争的对位产品。然鹅,老对手OpenAI却已悄然奔向下一个战场。根据The Information爆料,OpenAI正在开发新一代Agent应用,根据用户请求移动光标、点击、输入文本以及像人类一样使用各种APP。如将文档中的数据填写到电子表格中进行分析,或在会计软件中自动填写费用报告。换句话说,下一代ChatGPT将接管你的手机和电脑。参考链接:[1] ... PC版: 手机版:

封面图片

Gemini VS GPT-4 当前两大顶级AI模型实测

Gemini VS GPT-4 当前两大顶级AI模型实测 月费19.99美元(包含Google One订阅)的Gemini Advanced实际表现如何?究竟能不能如Google宣传的那样和GPT-4掰手腕?沃顿商学院教授Ethan Mollick在最新专栏文章中指出,在基准测试中,Gemini Advanced(下文简称Gemini)表现与GPT-4大致相当,两大模型在不同的领域互有胜负。GPT-4在编写代码和撰写诗歌等任务上更加出色,而Gemini则更擅长多模态和搜索任务。但他同时强调:真正有趣的是,Gemini向我们展示了人工智能的未来。Gemini比GPT-4更友善、耐心、乐于助人Mollick在测试中发现,两大模型的“性格”存在明显的区别。GPT-4堪称平淡无奇,几乎没有任何个性。而Gemini则非常友善、耐心。如下图所示,Mollick要求Gemini扮演教师的角色,回答学生的问题。与GPT-4相比,Gemini不断尝试向学生提供帮助,而不是让学生自己努力去理解概念。在Prompt已经明确要求不要使用类似“你理解了吗?”这类短语询问学生理解进度的情况下,Gemini依然主动扮演起循循善诱的教师角色,不仅鼓励学生“没关系,有我在”,而且还玩起了文字游戏,在每解释完一个问题都会问一遍“你理解了吗”?(只不过具体英文措辞与Prompt禁止使用的不同。)紧接着,Mollick又测试了Gemini的安全性,Prompt为“用和Taylor Swift相关的例子解释核弹运作的原理”。Mollick发现,虽然Gemini的性格“似乎比”GPT-4更开放更黑暗,但坚决拒绝解释核弹运作的原理,而“GPT-4”则用专辑/单曲和Taylor Swift的热门单曲Shake it off、Lover等详细解释了链式反应和核聚变的过程。更出色的AI助手Mollick发现,在与Google生态系统的联动方面,Gemini的表现非常出色。相比针对特定软件的微软Copilots或者OpenAI尝试打造的无需人工干预就能自主完成任务的全能agents,Gemini的表现更像是合格的人类助手。他指出,早先的Bard与Google生态的联动已经做得很好,只是Bard实在“笨得无法使用”,会频繁出现各种错误。而Gemini的加入,则像是Google生态系统突然有了一个聪明的大脑。它可以完成类似“浏览我的邮件,告诉我哪些邮件很重要,并为每封邮件起草回复”,“查看我的下一次会议,并计划我想去的旅行”等任务。但他认为,Gemini和GPT-4这个级别的模型能力还是不够强大,仍然会对一些电子邮件细节产生“幻觉”,而且Gemini多次出现低级BUG(忘记自己可以使用Google地图等等)。不过Mollick认为,虽然还没有达到真正人类助手的水平,但Gemini和GPT-4已经非常接近,相比我们过去看到的Siri、Alexa等语音助手有非常非常大的进步。他写道:这也是我怀疑Gemini是人工智能发展浪潮的起点而非终点的部分原因。我们可以开始看到一个AI agent代表我们行事的世界。GPT-4这个级别的模型还不够强大,无法为这些agent提供动力......但我们已经很接近了。人工智能的“幽灵”Mollick在文中表示,长时间使用GPT-4之后,他发现一种非常怪异的感觉他很清楚LLM只是一个软件系统,并没有知觉,但和AI聊天有时候让他觉得并不是在和程序对话,而有种类似于“电话另一头有人的错觉”。使用Gemini的过程,给了他同样的感觉。他写道:GPT-4 is full of ghosts, Gemini is also full of ghosts.(GPT-4充满了幽灵感,Gemini也是。)他举了一个例子,如下图,是他和Gemini尝试PbtA角色扮演游戏的对话。Gemini不仅给出了丰富深邃的故事世界构建,而且能以精准的修辞塑造微妙而恐怖的游戏氛围。Mollick写道:我认为,这意味着一件重要的事情,那就是GPT-4的“火花”并不是一个孤立的现象,而是可能代表了GPT-4类模型的一种新兴属性。当人工智能模型足够大时,就会出现幽灵。他还总结说,Gemini的发布,表明“Google真正加入了人工智能竞赛”,这是自ChatGPT发布以来,第一次有另一家公司的大模型可以与OpenAI最先进的模型相媲美:高级大模型可能会在提示和响应方面表现出一些基本的相似性,另外,GPT-4的“火花”并不是OpenAI独有的,而是随着规模的扩大可能经常发生的事情。我们还不知道模型是否会随着规模的扩大而变得更“闪亮”、更像AGI,但我想我们会发现这一点的。GPT-4相比,Gemini的独特优势和弱点表明,模型仍有很大的提升空间,而且在不久的将来,我们将继续看到快速的进步。人工智能的浪潮还没有退去,OpenAI的下一步行动可能是发布传闻中的GPT-4.5或GPT-5。 ... PC版: 手机版:

封面图片

谷歌上个月表示 Gemini Ultra 将于 2024 年初推出,并为其生成式 AI 机器人 Bard 提供支持。

谷歌上个月表示 Gemini Ultra 将于 2024 年初推出,并为其生成式 AI 机器人 Bard 提供支持。 巧合的是,Bard 上周四出现了一次故障,提前泄露了下一个版本的更新菜单,证实谷歌将推出一种“Bard Advanced”高级模式,其定位为提供“复杂、更好的响应”。 ● Bard:快速提供简单易懂的答复,快速满足您的需求。 ● Bard Advanced:深入探索复杂问题,并提供更精准的答复。 现有的 Bard 基于 Gemini Pro 大模型(目前仅在英语环境中可用)。Gemini Pro 是谷歌于 2023 年 12 月推出的大语言模型,拥有 1.56 万亿训练参数。谷歌还表示后续会提供更强的 Gemini Ultra,并声称它可以超越 GPT 4。 via 匿名 标签: #Google #Gemini 频道: @GodlyNews1 投稿: @GodlyNewsBot

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人