LLM排行榜更新:谷歌Bard超过GPT-4 中国玩家未进前十

LLM排行榜更新:谷歌Bard超过GPT-4 中国玩家未进前十 排行榜介绍这个LLMs 排行榜(Chatbot Arena基准平台)是由 UC伯克利研究人员主导的LMSYS (Large Model Systems Organization)组织发起的。通过在LLMs 间进行随机匿名的 1V1 battle 方式,并基于 Elo 评级系统得出排名。如下图所示,你可以随便问一个问题,左侧是模型A的回答,右侧是模型B的回答。然后你可以给这两个模型的回答打分,一共有四个选项“A更好;B更好;A和B一样好;A和B一样差”,如果一轮聊天判断不出来,你可以继续聊天,直到选出你认为更好的,但如果在聊天过程中暴露了大模型的身份,则投票将不被计算在内。下图显示了模型A在对战模型B时获胜几率(不包含平局 )的比例分布图:下图显示了每种模型组合的battle次数(无平局))下图显示了单个模型相对于所有其他模型的平均胜率:OpenAI霸榜,中国玩家未进前十下图是该榜单目前排名的 Top 10,可以看出GPT-系列模型还是占据绝对优势的(前四名中占据了其三),而 Anthropic旗下的 Claude 系列模型则是在前十中占据了三席。号称是欧洲版OpenAI的 Mistral公司,这次也有两个模型进入前十。另外请看上图最右侧一列,排名 Top 10的模型中,有9家都是闭源的私有模型,这说明开源模型还是有一段路要走。遗憾的是中国玩家的大语言模型没有进入前十。其中排名最高的是李开复创业公司零一万物旗下的 Yi-34B-Chat模型,位居13名。其次是阿里旗下的 通义千问 Qwen-14B-chat模型,排名36:再之后是清华教授唐杰创业公司智谱AI旗下的ChatGLM系列模型:需要说明三点:1、有很多中国大厂研发的模型可能没有参与到该榜单排名;2、该榜单是面向全球公众的,所以选择用英文来聊天的用户要远比中文多,这可能对中国玩家研发的大语言模型不利;3、该榜单仅仅统计了20w用户的随机提问和聊天,代表了用户和LLMs聊天的真实评价,但由于用户的提问和专业程度参差不齐,所以评价具有一定的主观性。最后我们说回Google,在裁员和科学家离职创业的内忧外患之际(详情请移步Google危机大爆发!科学家纷纷离职创业、员工裁员不断...),Google24年究竟能不能完成“帝国反击战”呢?让我们拭目以待吧! ... PC版: 手机版:

相关推荐

封面图片

谷歌新Bard逆袭GPT-4冲上LLM排行榜第二 Jeff Dean高呼我们回来了

谷歌新Bard逆袭GPT-4冲上LLM排行榜第二 Jeff Dean高呼我们回来了 基于此,Bard相较于3月份的首次亮相,不仅在表现上有了显著的提升,而且还具备了更多的能力。可以看到,在最新的Gemini Pro-scale加持下,Bard直接蹿升到了排行榜第二名的位置。一口气把之前的两款GPT-4模型斩于马下,甚至和排名第一的GPT-4 Turbo的差距也非常小。虽然Jeff Dean并没有具体阐述“scale”的含义,但从名称上推测,很可能是一个比初代Gemini Pro规模更大的版本。而根据前段时间外媒曝出的内部邮件,搭载Gemini Ultra的Bard Advanced已经全面开放给Google员工试用。也就是说,距离Google最强模型的上线,已经不远了。随着Google对Gemini Pro更新后不断大幅上涨的表现,也让所有人对完全体Gemini Ultra的能力有了更多的期待。不过,新推出的Bard目前只接受了约3,000次评价,而GPT-4的评价次数已高达30,000次。因此,这个结果后续很可能还会发生变动。但不管怎样,这对于Google来说是一项令人瞩目的成就,也让人对即将发布的、预期将超过Gemini Pro-Scale性能的最强AI模型Gemini Ultra充满期待。GoogleBard超越GPT-4跃居第二简单介绍一下,这个由UC伯克利主导,CMU,UCSD等顶级高校共同参与创建的聊天机器人竞技场“Chatbot Arena”,是学术圈内一个很权威的大模型对话能力排行榜。榜单通过类似Moba游戏中的“排位赛”机制,让各家大模型通过PvP的方式来排出性能高低。期间,用户会与模型(不知道具体型号)进行互动,并选择他们更喜欢的回答。而这些投票将会决定模型在排行榜上的名次。这种方式能够有效地避免很多PvE基准测试中可能出现的,通过“刷题”来提高成绩的问题,被业界认为是一个比较客观的大模型能力排行榜。为了便于区分,LMSYS Org指出,目前Gemini Pro市面上总共有3个版本:- Gemini Pro API:用户可以通过Google云的Vertex AI API进行访问- Gemini Pro(dev)API:开发者API可以通过Google AI Studio进行访问- Bard(1月4日更新的Gemini Pro):是目前唯一可以访问到1月24日更新的Gemini Pro的方式同时,GoogleBard项目的高级总监Sadovsky也透露,排行榜上的Bard和Gemini Pro(API)是两个在微调层面不同的模型,而且Bard可以检索互联网上的信息。在ChatBot Arena中,1月24号更新的Bard由于支持检索互联网,相比于之前放出的Gemini Pro(API)对于实时信息问题的回复提升巨大。从Google的这波更新可以看出,Gemini Pro的潜力似乎远远没有被完全释放,希望Google能再接再厉,对OpenAI一家独大的格局形成挑战。以下是1月14号更新的Bard在ChatBot Arena中的成绩的明细:模型A相对于模型B在所有非平局对决中获胜的比例不同模型组合间对决的次数统计(排除平局情况)通过1000轮随机抽样对Elo评分进行的自举法(Bootstrap)估计在假设等概率抽样和不存在平局的情况下,相对于所有其他模型的平均胜率Elo评分系统Elo等级分制度(Elo rating system)是一种计算玩家相对技能水平的方法,广泛应用在竞技游戏和各类运动当中。其中,Elo评分越高,那么就说明这个玩家越厉害。比如英雄联盟、Dota 2以及吃鸡等等,系统给玩家进行排名的就是这个机制。举个例子,当你在英雄联盟里面打了很多场排位赛后,就会出现一个隐藏分。这个隐藏分不仅决定了你的段位,也决定了你打排位时碰到的对手基本也是类似水平的。而且,这个Elo评分的数值是绝对的。也就是说,当未来加入新的聊天机器人时,我们依然可以直接通过Elo的评分来判断哪个聊天机器人更厉害。具体来说,如果玩家A的评分为Ra,玩家B的评分为Rb,玩家A获胜概率的精确公式(使用以10为底的logistic曲线)为:然后,玩家的评分会在每场对战后线性更新。假设玩家A(评分为Ra)预计获得Ea分,但实际获得Sa分。更新该玩家评分的公式为:网友热议对此,网友提问:现在能够访问的Bard就是这个排名第二的Bard了吗?Google官方回复,是的,而且现在访问的Bard比排行榜的上的Bard还能支持更多的像地图扩展等应用。不过还是有网友吐槽,即使在PvP排行榜上Bard已经取得了很好的成绩,但是对于理解用户需求和解决实际问题的能力,Bard和GPT-4依然还有很大差距。也有网友认为,用能联网的Bard和离线的GPT-4打有失公平。甚至,就这样还没打过……而最有意思的,还要数网友在排行榜中发现的“华点”了:号称是GPT-4最大竞品的Claude居然越更新越弱了。对此,之前有分析认为,Anthropic一直在大力发展的与人类对齐,会严重影响模型的性能。GPT-4 Turbo超长上下文A/B测试有趣的是,这个连Jeff Dean都亲自下场的“刷榜”,正巧就在OpenAI连发5款新模型的第二天。根据OpenAI的介绍,新版GPT-4 Turbogpt-4-0125-preview,不仅大幅改善了模型“偷懒”的情况,而且还极大地提升了代码生成的能力。不过,正如大家对Bard的怀疑,GPT-4这次到底有没有变强也有待验证。对此,AI公司Smol的创始人Shawn Wang,就在超过100k单词的超长上下文中,对比测试了新旧GPT4-Turbo的总结能力。Wang表示,两次测试使用的是完全相同提示词,以及基本相同的语料库。虽然没有严格严格,但每个模型都进行了超过300次的API调用,因此对于总结任务而言,这一结果还是具有一定参考价值的。结果显示,2024年1月的GPT4-Turbo花费了19分钟来生成20,265个单词,相比之下,2023年11月的用16分钟生成了18,884个单词。也就是说,新模型的生成速度大约慢了 18%,且生成文本的长度平均偏长约7%。质量方面:- 2024年1月的模型在主题选择上略有改善,但仍存在问题- 2023年11月的模型会产生更多错误信息- 2024年1月的模型在总结中添加小标题的能力略有提升- 2024年1月的模型出现了一次严重的格式错误,而这在之前是极为罕见的- 2023年11月的模型文本详情更加丰富总体而言,新版GPT4-Turbo在总结这一应用场景上有所退步。左侧:2023年11月;右侧:2024年1月(左右滑动查看全部)OpenAI最后的“开源遗作”两周年不得不说,AI领域的发展过于迅猛,甚至让人对时间的流速都产生了错觉。今天,英伟达高级科学家Jim Fan发推纪念了InstructGPT发布二周年。在这里,OpenAI定义了一套标准流程:预训练 -> 监督式微调 -> RLHF。直到今天,这依然是大家遵循的基本策略(尽管有些许变化,比如DPO)。它不仅仅是大语言模型从学术探索(GPT-3)到转化为具有实际影响力的产品(ChatGPT)的关键转折点,而且也是最后一篇OpenAI详细说明他们如何训练前沿模型的论文。论文地址: InstructGPT在2022年的NeurIPS会议上首次亮相,但它并不是RLHF的发明者。实际上,相关博客将读者引向了OpenAI团队在2017年完成的原始RLHF研究。这项研究最初的目的是解决模拟机器人领域中难以明确定义的任务通过一名人类标注者提供的900个二选一偏好,RLHF让一个简单的“跳跃”机器人在模拟环境中学会了后空翻。论文地址: 模型提供了三种规模:1.3B、6B、175B。与旧的、需要复杂提示设计的GPT-3-175B相比,标注者明显更喜欢Instruct-1.3B。微软最知名的“小模型”Phi-1也是1.3B。- InstructGPT展示了如何精彩地呈现研究成果。三个步骤的图表清晰易懂,并且成为AI领域最标志性的图像之一。引言部分直接了当,用粗体突出了8个核心观点。对局限性和偏见的讨论实事求是、坦诚直接。 ... PC版: 手机版:

封面图片

【调查:LG位居元宇宙专利排行榜第一,华为、苹果进前十】

【调查:LG位居元宇宙专利排行榜第一,华为、苹果进前十】 根据外媒和东京调研公司Cyber Creative Institute编制的元宇宙专利排名,自2016年以来,LG提交的元宇宙专利申请最多,排名从2010-2015年的第11位攀升至第一位。三星电子位居第二。华为在之前的调查中没有进入前20名,但现在凭借着大量与图像和显示处理相关的专利排名跃居第四。Meta排名第三,微软排名第五,英特尔和苹果也在进入前十的六家美国公司之列。索尼是唯一一家进入前十的日本公司,排名第六。综合来看,排名前20的公司总共提交了7760项元宇宙专利,其中美国占57%,其次是韩国的19%,中国的12%。日本公司占8%。

封面图片

谷歌弃Bard发布超大杯Gemini 全面对标GPT-4

谷歌弃Bard发布超大杯Gemini 全面对标GPT-4 Gemini是品牌总称,相当于OpenAI的ChatGPT;Gemini Advanced付费服务,对应ChatGPT Plus;Gemini Ultra模型,对标的是GPT-4;切换到Gemini Advanced界面的操作也和ChatGPT类似,只需点击左上角的选项即可:在价格方面,Gemini Advanced的定价也是颇有意思19.99美元/月,比ChatGPT Plus(20美元/月)便宜了亿点点。不过Google也给出了一个小福利,订阅后的前两个月,免!费!!并且不会像GPT-4那样有每小时使用次数限制,可以放开了用。不仅如此,Google这次还顺带在Android手机里推出了Gemini的APP,特定的Android机长按电源键等按钮可以“直达”的那种:iOS用户也不用着急,Gemini将在未来几周会出现在Google App中,届时的打开方式会是这样的:毕竟Google此前发布Gemini Ultra这款大模型之际,便是一上来就在32个基准测试中拿下30个SOTA,并且第一个在MMLU基准上达到人类专家水平。现如今产品化的它终于上线,也是让众多网友纷涌而至,一时间也是出现了短暂的宕机。那么加持了Google自家最强大模型的Gemini Advanced,效果到底如何?我们在第一时间成功开通了试用。实测Gemini Advanced虽然Google声明目前只开放英语支持,但实测用中文提问,它不但能懂也能用中文回答。既然是Google出品,肯定少不了考验它的联网搜索能力。本来想试试能不能当吃瓜神器,结果因为Google严格的伦理道德限制,Gemini Advanced当场拒绝作答。那么退而求其次,问问纯事实不带价值判断的,它的表现就非常亮眼了。回答中,标绿色的语句展开就可以看到引用来源。标黄色的语句则表示没有找到明确引用来源,可以尝试进一步核实。AI在回答中生成的表格数据,也可以点击“Export to Sheets”一键导入到Google Docs进一步编辑处理,在工作场景可以说是非常实用了。接下来,还可以在“扩展程序”中打开对其他Google服务的支持,如地图、Gmail邮箱、YouTube视频。关联邮箱账号后,Gemini Adavanced就成变你的个人AI管家,可以帮你管理不少事情了,如找出可退订垃圾邮件。不过很可惜,扩展程序目前还不支持中文指令。用英语“find me youtube videos……”就可以触发搜索视频功能,辅助学习知识也是一把好手。除了联网搜索、集成应用,Google还特别强调了Gemini Advanced的推理能力。先来一道微软对GPT-4测试时的经典推理题,结果Gemini Advanced不仅成功作答,还考虑了额外的小概率情况。注意界面中的“Show drafts”按钮,代表Gemini Adavanced每次会生成三个“草稿”,并挑选其中最好的展示出来。三个草稿或使用不同的推理方式,或试用不同的写作风格,但答案无一例外都是正确的。如果实在不巧,遇到三个草稿都不满意的情况,也可以选择最右边的全部重来按钮。再注意答案最后面一排按钮,除了常规的点赞、点踩、分享之外,还有两个不常见的新功能。中间的滑块按钮代表“修改回答”,可以选择更短、更长、解释更简单、语气更轻松、语气更正式。尝试选择语气更轻松,整个回答就会变得更口语化。选择更正式,整个回答就像是在考场上答卷了。最后的GoogleG图标,代表使用搜索引擎核查AI生成的答案是否准确,结果同样也会用“绿色-有引用来源”,“黄色-无引用来源”的形式标出来。在更实用的场景中,要求生成一副科技主题春联,Gemini Adavanced也能满足“仄起平收”这个要求。生成代码也是小菜一碟,还“大义灭亲”,把自家广告也给隐藏了。一番体验之后,最后总结一下。Gemini Advanced在超大杯Gemini Ultra模型加持下,能力基本达到GPT-4同级别水平。设计上也更像一个成熟产品,而不是大模型的技术演示Demo了。与Google强大的互联网服务集成后,实用性上也有独到之处。另外在这次发布前,量子位也与GoogleGemini团队有过一次短暂的交流。团队表示这次发布更专注于把Gemini Ultra的语言能力释放到产品中,未来还会持续更新多模态能力、交互性更强的代码功能,以及上传文件分析数据等功能。与Google产品更深入集成,比如直接在Gmail里使用Gemini来回复邮件,目前还在“Coming soon”状态。不过我们要到一张示意图,敬请期待。另外在交流中,Google开发团队特别提醒了一点:由于产品刚刚从Bard改名为Gemini,AI偶尔会出现混乱,需要时间慢慢过渡。原来AI也像人类一样改名会不适应,也是让人哭笑不得了。都是20美元,你pick哪一个?就在这次Gemini Ultra刚刚有消息传出的时候,知名爆料账号Flowers from the future组织了一次投票。同样20美元,GPT-4和Gemini Ultra你会订阅哪个?最终2360人参与,有四成坚定的继续留在GPT-4,只有12.3%选择迁移到Gemini Ultra。不过这次投票是在真正发布之前几天了。在体验过之后,不知道又会有多少人因为产品的功能体验和服务集成“弃O投G”。而就在刚刚,沃顿商学院一位教授表示在他已经提前体验了Gemini Advanced长达6周的时间。他给出的一句评价是:Gemini Advanced显然处于GPT-4的水平,但并没有明显超过它。二者在使用过程中各有各的优势。例如在搜索能力方面,让它俩都去查看一下运动鞋的最新趋势,Gemini Advanced能够搜索YouTube,而ChatGPT使用的是Bing。这表明Gemini Advanced在搜索集成方面有所不同。这位教授还认为Gemini Advanced的界面比GPT-4更流畅,技术错误出现的也较少。它在“个性”上与GPT-4有所不同,更友好和愿意进行文字游戏。尽管两者在个性上有差异,但它们在处理复杂提示时表现出了兼容性。当然,这并非是教授在拿Gemini Advanced和ChatGPT直接做比较,而是借着二者探讨AI在未来可能发展的方向:Gemini Advanced与GPT-4相比的独特优势和劣势表明,模型仍有很大的改进空间,未来我们将继续看到快速的进步。AI的发展浪潮尚未达到顶峰,OpenAI的下一步可能是发布传闻中的GPT-4.5或GPT-5。如今距离ChatGPT发布已经过去14个月还要多,Google终于在模型-应用-生态上都准备好了与之竞争的对位产品。然鹅,老对手OpenAI却已悄然奔向下一个战场。根据The Information爆料,OpenAI正在开发新一代Agent应用,根据用户请求移动光标、点击、输入文本以及像人类一样使用各种APP。如将文档中的数据填写到电子表格中进行分析,或在会计软件中自动填写费用报告。换句话说,下一代ChatGPT将接管你的手机和电脑。参考链接:[1] ... PC版: 手机版:

封面图片

让GPT-4帮人类训练GPT-4!OpenAI推出新模型CriticGPT

让GPT-4帮人类训练GPT-4!OpenAI推出新模型CriticGPT 美东时间6月27日周四,OpenAI公布,其研究人员训练了一个基于 GPT-4 的模型,它被称为 CriticGPT,用于捕捉ChatGPT 代码输出中的错误。简单来说就是,CriticGPT让人能用 GPT-4 查找 GPT-4 的错误。它可以写出使用者对ChatGPT响应结果的批评评论,从而帮助人类训练者在RLHF期间发现错误。OpenAI发现,如果通过CriticGPT获得帮助审查 ChatGPT编写的代码,人类训练师的审查效果比没有获得帮助的人强60%。OpenAI称,正着手将类似 CriticGPT 的模型集成到旗下 RLHF 标记管道中,为自己的训练师提供明确的AI帮助。OpenAI称,因为没有更好的工具,所以人们目前难以评估高级的AI系统的表现。而CriticGPT意味着,OpenAI向能够评估高级AI系统输出的目标迈进了一步。,OpenAI举了一个例子,如下图所示,对ChatGPT提出一个用 Python 编写指定函数的任务,对于ChatGPT根据要求提供的代码,CriticGPT点评了其中一条指令,提议换成效果更好的。OpenAI称,CriticGPT 的建议并不是全都正确无误,但OpenAI的人员发现,相比没有这种AI的帮助,有了它,训练师可以发现更多模型编写答案的问题。此外,当人们使用CriticGPT 时,这种AI模型会增强他们的技能,从而得出的批评结论比单单人类训练师做的更全面,并且比AI模型单独工作时产生的幻觉错误更少。在OpenAI的实验中,在60%以上的时间里,随机选择的训练师都更喜欢来自人类与CriticGPT 合作的批评结论,而不是来自没有CriticGPT协助的人类训练师批评。OpenAI同时提到了目前开发CriticGPT的四点局限。其中之一是,OpenAI用 ChatGPT 的简短答案训练CriticGPT,因此未来需要发掘能帮助训练师理解冗长且复杂任务的方法。第二点是,模型仍然会产生幻觉,有时训练师在看到这些幻觉后会犯下标记错误。第三点是,有时现实世界中的错误可能分散在答案的许多部分之中,OpenAI目前的工作重点是让模型指出一处的错误,未来还需要解决分散在不同位置的错误。第四点,OpenAI指出,CriticGPT 只能提供有限的帮助:如果ChatGPT面对的任务或响应极其复杂,即使是有模型帮助的专家也可能无法正确评估。最后,OpenAI表示,为了协调日益复杂的 AI 系统,人们需要更好的工具。在对 CriticGPT 的研究中,OpenAI发现,将 RLHF 应用于 GPT-4 有望帮助人类为 GPT-4 生成更好的 RLHF 数据。OpenAI计划,进一步扩大这项工作,并将其付诸实践。OpenAI在原名Twitter的社交媒体X上公布了新模型CriticGPT后,一条点赞超1万的网友评论称,自我改进已经开始了。另一条点赞上万的热截取了OpenAI的相关研究文章结论,其中提到,在智能方面,大语言模型(LLM)和LLM的批评都只会继续改进,而人类的智能不会,这条评论感叹,真是悲观。还有网友引用了漫威超级英雄电影《复仇者联盟》中灭霸的一句台词,点评OpenAI所说的用GPT-4找GPT-4的错误:“我用宝石摧毁了宝石。” ... PC版: 手机版:

封面图片

大模型实时打《街霸》捉对PK GPT-4居然不敌3.5

大模型实时打《街霸》捉对PK GPT-4居然不敌3.5 这种新玩法吸引了不少网友来围观。由于项目是在Mistral举办的黑客马拉松活动上开发,所以开发者只使用OpenAI和Mistral系列模型进行了测试。排名结果也很出人意料。经过342场对战后,根据棋类、电竞常用的ELO算法得出的排行榜如下:最新版gpt-3.5-turbo成绩断崖式领先,Mistral小杯排第二。更小的模型超过了更大的如GPT-4和Mistral中杯大杯。开发者认为,这种新型基准测试评估的是大模型理解环境并根据特定情况采取行动的能力。与传统的强化学习也有所不同,强化学习模型相当于根据奖励函数“盲目地”采取不同行动,但大模型完全了解自身处境并有目的的采取行动。考验AI的动态决策力AI想在格斗游戏里称王,需要哪些硬实力呢?开发者给出几个标准:反应要快:格斗游戏讲究实时操作,犹豫就是败北脑子要灵:高手应该预判对手几十步,未雨绸缪思路要野:常规套路人人会,出奇制胜才是制胜法宝适者生存:从失败中吸取教训并调整策略久经考验:一局定胜负不说明问题,真正的高手能保持稳定的胜率具体玩法如下:每个大模型控制一个游戏角色,程序向大模型发送屏幕画面的文本描述,大模型根据双方血量、怒气值、位置、上一个动作、对手的上一个动作等信息做出最优决策。第一个挑战是定位人物在场景中的位置,通过检测像素颜色来判断。由于目前大模型数学能力还都不太行,直接发送坐标值效果不好,最终选择了将位置信息改写成自然语言描述。所以对于AI来说,实际上他们在玩的是一种奇怪的文字冒险游戏。再把大模型生成的动作招式映射成按键组合,就能发送给游戏模拟器执行了。在试验中发现,大模型可以学会复杂的行为,比如仅在对手靠近时才攻击,可能的情况下使用特殊招式,以及通过跳跃来拉开距离。从结果上可以看出,与其他测试方法不同,在这个规则下似乎更大的模型表现越差。开发者对此解释到:目标是评估大模型的实时决策能力,规则上允许AI提前生成3-5个动作,更大的模型能提前生成更多的动作,但也需要更长的时间。在推理上的延迟差距是有意保留的,但后续或许会加入其他选项。后续也有用户提交了流行开源模型的对战结果,在7B及以下量级的战斗中,还是7B模型排名更靠前。从这个角度看,这种新型基准测试为评估大模型的实用性提供了新思路。现实世界的应用往往比聊天机器人复杂得多,需要模型具备快速理解、动态规划的本领。正如开发者所说,想要赢,要在速度和精度之间做好权衡。GitHub项目: ... PC版: 手机版:

封面图片

超越GPT-4 Claude 3超大杯成新王

超越GPT-4 Claude 3超大杯成新王 而且不仅仅是Claude 3的超大杯Opus成功登顶,藐视众生,Claude 3家族的整体表现都非常亮眼。大杯Claude 3 Sonnet排到了第4,就连最小的Claude 3 HaiKu都达到了GPT-4水平!那么相比于基准测试跑分,这个榜单的权威性如何?Chatbot Arena(聊天机器人竞技场),由伯克利团队开发,每个模型在榜单上的得分,完全取决于真实人类用户的使用体验。我们来看一下打分规则:用户同时向两个匿名模型(比如ChatGPT、Claude、Llama)提出任何相同的问题,然后根据回答投票给表现更好的模型;如果一次回答不能确定,用户可以继续聊天,直到确定获胜者;如果在对话中透露了模型的身份,则不会计算投票。Chatbot Arena平台收集了超过40万人的投票,来计算出这个大模型的等级分排行榜,最终找出谁是冠军。显然,这回Claude 3赢麻了。我们来看一下真实的战况:在所有非平局对战中, A对B获胜的比例:模型之间的对战次数(无平局):GPT-4终于被干掉了,对此,有网友开始恶搞:刚在当地超市看到Sam Altman,他一脸震惊地看着手机。几秒钟后,他真的倒下了,开始剧烈颤抖。经过2分钟的摇晃和尖叫,一群人围绕着他试图帮助他。但令人惊讶的是,他在2分钟后停止了颤抖和尖叫,站起来,拿起手机开始拨打一个号码。“准备释放......”咱也不知道Altman要放的是不是GPT-5。网友表示,Claude确实要比GPT勤奋得多:GPT-4-Turbo非常懒惰。在任何编码任务中,它都会跳过部分代码,并表示“你自己知道要放什么”,而Opus可以毫无遗漏地输出整个代码。就连Claude-2也通过自己的勤奋和耐心感动了这位网友。更有比较务实的网友指出,Haiku的排名更为重要,因为它是第一个可以以极低成本即时运行的LLM,并且具有足够高的智能来提供实时客户服务。盲生你发现了华点!Claude 3 Haiku不仅与原始版本的GPT-4表现一样好,关键是相当便宜,在一些平台你甚至可以免费使用。大家于是纷纷夸起了Claude 3 Haiku:智能相当于GPT-4,价格比GPT-3.5便宜,而且据说模型可能只有20B大小。有网友表示,OpenAI不行啦,现在Anthropic才是老大,一时间,平台内外充满了快活的空气。ChatGPT 一年零增长回过头来再看ChatGPT这边,从最初的高光、王者,到现在不能说泯然众人吧,反正多少有点寒酸了。最近,有关统计平台曝出:ChatGPT在过去一年中居然零增长!最近一段时间,ChatGPT一直被指责懒惰、系统提示臃肿,而另一方面竞争也愈演愈烈Claude 3和Gemini Pro 1.5现在都提供了比GPT-4多8倍的上下文长度和更好的recall能力。对于几乎每个ChatGPT用例,现在都有大量垂直化的AI初创公司,致力于满足用户的需求,而不是满足于现有的ChatGPT界面和捆绑工具它们有更好的UI选项(例如IDE和图像/文档编辑器)、更好的原生集成(例如用于cron重复操作)、更好的隐私/企业保护(例如用于医疗保健和金融),更细粒度的控制(GPT的默认RAG是幼稚且不可配置的)。以下是一些网友列举了相关垂直领域的产品,以及公司的融资情况:从某种意义上说,OpenAI的B2B和B2C部分相互竞争,这在某种程度上是良性竞争OpenAI可以使用来自ChatGPT的RLHF数据进行训练。而新的GPT商店可以看作是,OpenAI为了抓住这些垂直化需求的尝试。与其离开平台,到处支付20美元/月,为什么不留在ChatGPT内部而只需要支付一次,让OpenAI将理论上的收入分配给GPT创作者?对此,大部分创作者也很明智,一般只向ChatGPT发布精简版的应用,作为自己主要平台的一个渠道。在游戏机业务中,众所周知,购买决策往往是由平台独占游戏驱动的。从某种意义上说,ChatGPT的未来会以平台专属模型为特色。所以,当Sora甚至是GPT-5公开发布时,一定会率先登陆自家的平台,也许那将是下一轮ChatGPT的增长点。 ... PC版: 手机版:

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人