相关推荐

国内大语言模型的 Elo 机制排行榜。ChatGpt3.5 作为一个基准，还是被超越了。GPT4 才是星辰大海。附上链接

Scale AI发布首个大语言模型排行榜对特定领域的AI模型性能进行排名

Scale AI发布首个大语言模型排行榜对特定领域的AI模型性能进行排名 SEAL 排行榜显示，OpenAI 的 GPT 系列 LLM 在其用于人工智能模型排名的四个初始领域中的三个领域排名第一，Anthropic PBC 广受欢迎的 Claude 3 Opus 在第四个领域排名第一。Google LLC 的 Gemini 模型也表现出色，在其中几个领域与 GPT 模型并列第一。Scale AI表示，它之所以创建SEAL排行榜，是因为现在有数以百计的LLM可供公司使用，而人工智能的表现却缺乏透明度。这些排行榜由 Scale AI 的安全、评估和对齐实验室（Safety, Evaluations, and Alignment Lab）开发，并声称通过拒绝透露其用于评估 LLM 的提示的性质来保持中立性和完整性。该公司指出，虽然也有其他对LLM进行排名的努力，如MLCommons的基准和斯坦福HAI的透明度指数，但其在人工智能训练数据方面的专业知识意味着它在克服人工智能研究人员所面临的一些挑战方面具有独特的优势。例如，Scale AI指出，MLCommon的基准是公开的，因此公司可以对其模型进行专门训练，以准确响应他们使用的提示。SEAL 开发了私有的评估数据集，以保持其排名的完整性，据说其测试是由经过验证的领域专家创建的。此外，所使用的提示和给出的排名都经过仔细评估，以确保其可信度，同时通过公布所使用评估方法的明确解释来确保透明度。Scale AI 表示，在 Scale Coding 领域，每个模型都要在随机选择的提示上与评估中的其他模型进行至少 50 次比较，以确保结果的准确性。编码评估试图评估每个模型生成计算机代码的能力，排行榜显示，OpenAI 的 GPT-4 Turbo Preview 和 GPT-4o 模型与Google的 Gemini 1.5 Pro（I/O 后）并列第一。之所以将它们并列第一，是因为 Scale AI 只声称其评估分数的置信度为 95%，而且前三名之间的差距很小。尽管如此，GPT-4 Turbo Preview 似乎略胜一筹，获得了 1155 分，GPT-4o 以 1144 分位居第二，Gemini 1.5 Pro（Post I/O）获得了 1112 分。在多语言领域，GPT-4o 和 Gemini 1.5 Pro（Post I/O）并列第一，得分分别为 1139 分和 1129 分，GPT-4 Turbo 和 Gemini Pro 1.5（Pre I/O）紧随其后，并列第三。GPT-4o 在"指令跟踪"领域也名列前茅，获得 88.57 分，GPT-4 Turbo Preview 以 87.64 分名列第二。结果表明，Google在这一领域仍需努力，因为 OpenAI 最接近的竞争对手是 Meta Platforms 公司的开源 Llama 3 70b Instruct（得分 85.55）和 Mistral 公司的 Mistral Large Latest LLM（得分 85.34）。最后，Scale AI 测试了 LLM 的数学能力。事实证明，Anthropic 的 Claude 3 Opus 以 95.19 的高分拔得头筹，无可争议地获得了第一名，超过了 95.10 的 GPT-4 Turbo Preview 和 94.85 的 GPT-4o。这些比较很有意思，但似乎还不能说明全部问题，因为有很多备受瞩目的龙8国际娱乐城似乎没有被纳入评估范围。例如，AI21实验室公司的Jurassic和Jamba以及Cohere公司的Aya和Command LLM在所有四项评估中都明显缺席，埃隆-马斯克（Elon Musk）的生成式人工智能初创公司xAI Corp.建立的Grok模型也是如此。好消息是，Scale AI 可能会解决LLM排行榜不完整的问题。该公司表示，它打算每年多次更新排行榜，以确保其与时俱进。它将在"可用时"添加新的前沿模型。此外，它还计划在排行榜上添加新的领域，力争成为最值得信赖的大模型第三方评估机构。 ... PC版：手机版：

谷歌新Bard逆袭GPT-4冲上LLM排行榜第二 Jeff Dean高呼我们回来了

谷歌新Bard逆袭GPT-4冲上LLM排行榜第二 Jeff Dean高呼我们回来了基于此，Bard相较于3月份的首次亮相，不仅在表现上有了显著的提升，而且还具备了更多的能力。可以看到，在最新的Gemini Pro-scale加持下，Bard直接蹿升到了排行榜第二名的位置。一口气把之前的两款GPT-4模型斩于马下，甚至和排名第一的GPT-4 Turbo的差距也非常小。虽然Jeff Dean并没有具体阐述“scale”的含义，但从名称上推测，很可能是一个比初代Gemini Pro规模更大的版本。而根据前段时间外媒曝出的内部邮件，搭载Gemini Ultra的Bard Advanced已经全面开放给Google员工试用。也就是说，距离Google最强模型的上线，已经不远了。随着Google对Gemini Pro更新后不断大幅上涨的表现，也让所有人对完全体Gemini Ultra的能力有了更多的期待。不过，新推出的Bard目前只接受了约3,000次评价，而GPT-4的评价次数已高达30,000次。因此，这个结果后续很可能还会发生变动。但不管怎样，这对于Google来说是一项令人瞩目的成就，也让人对即将发布的、预期将超过Gemini Pro-Scale性能的最强AI模型Gemini Ultra充满期待。GoogleBard超越GPT-4跃居第二简单介绍一下，这个由UC伯克利主导，CMU，UCSD等顶级高校共同参与创建的聊天机器人竞技场“Chatbot Arena”，是学术圈内一个很权威的大模型对话能力排行榜。榜单通过类似Moba游戏中的“排位赛”机制，让各家大模型通过PvP的方式来排出性能高低。期间，用户会与模型（不知道具体型号）进行互动，并选择他们更喜欢的回答。而这些投票将会决定模型在排行榜上的名次。这种方式能够有效地避免很多PvE基准测试中可能出现的，通过“刷题”来提高成绩的问题，被业界认为是一个比较客观的大模型能力排行榜。为了便于区分，LMSYS Org指出，目前Gemini Pro市面上总共有3个版本：- Gemini Pro API：用户可以通过Google云的Vertex AI API进行访问- Gemini Pro（dev）API：开发者API可以通过Google AI Studio进行访问- Bard（1月4日更新的Gemini Pro）：是目前唯一可以访问到1月24日更新的Gemini Pro的方式同时，GoogleBard项目的高级总监Sadovsky也透露，排行榜上的Bard和Gemini Pro（API）是两个在微调层面不同的模型，而且Bard可以检索互联网上的信息。在ChatBot Arena中，1月24号更新的Bard由于支持检索互联网，相比于之前放出的Gemini Pro（API）对于实时信息问题的回复提升巨大。从Google的这波更新可以看出，Gemini Pro的潜力似乎远远没有被完全释放，希望Google能再接再厉，对OpenAI一家独大的格局形成挑战。以下是1月14号更新的Bard在ChatBot Arena中的成绩的明细：模型A相对于模型B在所有非平局对决中获胜的比例不同模型组合间对决的次数统计（排除平局情况）通过1000轮随机抽样对Elo评分进行的自举法（Bootstrap）估计在假设等概率抽样和不存在平局的情况下，相对于所有其他模型的平均胜率Elo评分系统Elo等级分制度（Elo rating system）是一种计算玩家相对技能水平的方法，广泛应用在竞技游戏和各类运动当中。其中，Elo评分越高，那么就说明这个玩家越厉害。比如英雄联盟、Dota 2以及吃鸡等等，系统给玩家进行排名的就是这个机制。举个例子，当你在英雄联盟里面打了很多场排位赛后，就会出现一个隐藏分。这个隐藏分不仅决定了你的段位，也决定了你打排位时碰到的对手基本也是类似水平的。而且，这个Elo评分的数值是绝对的。也就是说，当未来加入新的聊天机器人时，我们依然可以直接通过Elo的评分来判断哪个聊天机器人更厉害。具体来说，如果玩家A的评分为Ra，玩家B的评分为Rb，玩家A获胜概率的精确公式（使用以10为底的logistic曲线）为：然后，玩家的评分会在每场对战后线性更新。假设玩家A（评分为Ra）预计获得Ea分，但实际获得Sa分。更新该玩家评分的公式为：网友热议对此，网友提问：现在能够访问的Bard就是这个排名第二的Bard了吗？Google官方回复，是的，而且现在访问的Bard比排行榜的上的Bard还能支持更多的像地图扩展等应用。不过还是有网友吐槽，即使在PvP排行榜上Bard已经取得了很好的成绩，但是对于理解用户需求和解决实际问题的能力，Bard和GPT-4依然还有很大差距。也有网友认为，用能联网的Bard和离线的GPT-4打有失公平。甚至，就这样还没打过……而最有意思的，还要数网友在排行榜中发现的“华点”了：号称是GPT-4最大竞品的Claude居然越更新越弱了。对此，之前有分析认为，Anthropic一直在大力发展的与人类对齐，会严重影响模型的性能。GPT-4 Turbo超长上下文A/B测试有趣的是，这个连Jeff Dean都亲自下场的“刷榜”，正巧就在OpenAI连发5款新模型的第二天。根据OpenAI的介绍，新版GPT-4 Turbogpt-4-0125-preview，不仅大幅改善了模型“偷懒”的情况，而且还极大地提升了代码生成的能力。不过，正如大家对Bard的怀疑，GPT-4这次到底有没有变强也有待验证。对此，AI公司Smol的创始人Shawn Wang，就在超过100k单词的超长上下文中，对比测试了新旧GPT4-Turbo的总结能力。Wang表示，两次测试使用的是完全相同提示词，以及基本相同的语料库。虽然没有严格严格，但每个模型都进行了超过300次的API调用，因此对于总结任务而言，这一结果还是具有一定参考价值的。结果显示，2024年1月的GPT4-Turbo花费了19分钟来生成20,265个单词，相比之下，2023年11月的用16分钟生成了18,884个单词。也就是说，新模型的生成速度大约慢了 18%，且生成文本的长度平均偏长约7%。质量方面：- 2024年1月的模型在主题选择上略有改善，但仍存在问题- 2023年11月的模型会产生更多错误信息- 2024年1月的模型在总结中添加小标题的能力略有提升- 2024年1月的模型出现了一次严重的格式错误，而这在之前是极为罕见的- 2023年11月的模型文本详情更加丰富总体而言，新版GPT4-Turbo在总结这一应用场景上有所退步。左侧：2023年11月；右侧：2024年1月（左右滑动查看全部）OpenAI最后的“开源遗作”两周年不得不说，AI领域的发展过于迅猛，甚至让人对时间的流速都产生了错觉。今天，英伟达高级科学家Jim Fan发推纪念了InstructGPT发布二周年。在这里，OpenAI定义了一套标准流程：预训练 -> 监督式微调 -> RLHF。直到今天，这依然是大家遵循的基本策略（尽管有些许变化，比如DPO）。它不仅仅是大语言模型从学术探索（GPT-3）到转化为具有实际影响力的产品（ChatGPT）的关键转折点，而且也是最后一篇OpenAI详细说明他们如何训练前沿模型的论文。论文地址： InstructGPT在2022年的NeurIPS会议上首次亮相，但它并不是RLHF的发明者。实际上，相关博客将读者引向了OpenAI团队在2017年完成的原始RLHF研究。这项研究最初的目的是解决模拟机器人领域中难以明确定义的任务通过一名人类标注者提供的900个二选一偏好，RLHF让一个简单的“跳跃”机器人在模拟环境中学会了后空翻。论文地址：模型提供了三种规模：1.3B、6B、175B。与旧的、需要复杂提示设计的GPT-3-175B相比，标注者明显更喜欢Instruct-1.3B。微软最知名的“小模型”Phi-1也是1.3B。- InstructGPT展示了如何精彩地呈现研究成果。三个步骤的图表清晰易懂，并且成为AI领域最标志性的图像之一。引言部分直接了当，用粗体突出了8个核心观点。对局限性和偏见的讨论实事求是、坦诚直接。 ... PC版：手机版：

LLM排行榜更新：谷歌Bard超过GPT-4 中国玩家未进前十

LLM排行榜更新：谷歌Bard超过GPT-4 中国玩家未进前十排行榜介绍这个LLMs 排行榜（Chatbot Arena基准平台）是由 UC伯克利研究人员主导的LMSYS (Large Model Systems Organization)组织发起的。通过在LLMs 间进行随机匿名的 1V1 battle 方式，并基于 Elo 评级系统得出排名。如下图所示，你可以随便问一个问题，左侧是模型A的回答，右侧是模型B的回答。然后你可以给这两个模型的回答打分，一共有四个选项“A更好；B更好；A和B一样好；A和B一样差”，如果一轮聊天判断不出来，你可以继续聊天，直到选出你认为更好的，但如果在聊天过程中暴露了大模型的身份，则投票将不被计算在内。下图显示了模型A在对战模型B时获胜几率（不包含平局）的比例分布图：下图显示了每种模型组合的battle次数（无平局））下图显示了单个模型相对于所有其他模型的平均胜率：OpenAI霸榜，中国玩家未进前十下图是该榜单目前排名的 Top 10，可以看出GPT-系列模型还是占据绝对优势的（前四名中占据了其三），而 Anthropic旗下的 Claude 系列模型则是在前十中占据了三席。号称是欧洲版OpenAI的 Mistral公司，这次也有两个模型进入前十。另外请看上图最右侧一列，排名 Top 10的模型中，有9家都是闭源的私有模型，这说明开源模型还是有一段路要走。遗憾的是中国玩家的大语言模型没有进入前十。其中排名最高的是李开复创业公司零一万物旗下的 Yi-34B-Chat模型，位居13名。其次是阿里旗下的通义千问 Qwen-14B-chat模型，排名36:再之后是清华教授唐杰创业公司智谱AI旗下的ChatGLM系列模型：需要说明三点：1、有很多中国大厂研发的模型可能没有参与到该榜单排名；2、该榜单是面向全球公众的，所以选择用英文来聊天的用户要远比中文多，这可能对中国玩家研发的大语言模型不利；3、该榜单仅仅统计了20w用户的随机提问和聊天，代表了用户和LLMs聊天的真实评价，但由于用户的提问和专业程度参差不齐，所以评价具有一定的主观性。最后我们说回Google，在裁员和科学家离职创业的内忧外患之际（详情请移步Google危机大爆发！科学家纷纷离职创业、员工裁员不断...），Google24年究竟能不能完成“帝国反击战”呢？让我们拭目以待吧！ ... PC版：手机版：

超越GPT-4 Claude 3超大杯成新王

超越GPT-4 Claude 3超大杯成新王而且不仅仅是Claude 3的超大杯Opus成功登顶，藐视众生，Claude 3家族的整体表现都非常亮眼。大杯Claude 3 Sonnet排到了第4，就连最小的Claude 3 HaiKu都达到了GPT-4水平！那么相比于基准测试跑分，这个榜单的权威性如何？Chatbot Arena（聊天机器人竞技场），由伯克利团队开发，每个模型在榜单上的得分，完全取决于真实人类用户的使用体验。我们来看一下打分规则：用户同时向两个匿名模型（比如ChatGPT、Claude、Llama）提出任何相同的问题，然后根据回答投票给表现更好的模型；如果一次回答不能确定，用户可以继续聊天，直到确定获胜者；如果在对话中透露了模型的身份，则不会计算投票。Chatbot Arena平台收集了超过40万人的投票，来计算出这个大模型的等级分排行榜，最终找出谁是冠军。显然，这回Claude 3赢麻了。我们来看一下真实的战况：在所有非平局对战中， A对B获胜的比例：模型之间的对战次数（无平局）：GPT-4终于被干掉了，对此，有网友开始恶搞：刚在当地超市看到Sam Altman，他一脸震惊地看着手机。几秒钟后，他真的倒下了，开始剧烈颤抖。经过2分钟的摇晃和尖叫，一群人围绕着他试图帮助他。但令人惊讶的是，他在2分钟后停止了颤抖和尖叫，站起来，拿起手机开始拨打一个号码。“准备释放......”咱也不知道Altman要放的是不是GPT-5。网友表示，Claude确实要比GPT勤奋得多：GPT-4-Turbo非常懒惰。在任何编码任务中，它都会跳过部分代码，并表示“你自己知道要放什么”，而Opus可以毫无遗漏地输出整个代码。就连Claude-2也通过自己的勤奋和耐心感动了这位网友。更有比较务实的网友指出，Haiku的排名更为重要，因为它是第一个可以以极低成本即时运行的LLM，并且具有足够高的智能来提供实时客户服务。盲生你发现了华点！Claude 3 Haiku不仅与原始版本的GPT-4表现一样好，关键是相当便宜，在一些平台你甚至可以免费使用。大家于是纷纷夸起了Claude 3 Haiku：智能相当于GPT-4，价格比GPT-3.5便宜，而且据说模型可能只有20B大小。有网友表示，OpenAI不行啦，现在Anthropic才是老大，一时间，平台内外充满了快活的空气。ChatGPT 一年零增长回过头来再看ChatGPT这边，从最初的高光、王者，到现在不能说泯然众人吧，反正多少有点寒酸了。最近，有关统计平台曝出：ChatGPT在过去一年中居然零增长！最近一段时间，ChatGPT一直被指责懒惰、系统提示臃肿，而另一方面竞争也愈演愈烈Claude 3和Gemini Pro 1.5现在都提供了比GPT-4多8倍的上下文长度和更好的recall能力。对于几乎每个ChatGPT用例，现在都有大量垂直化的AI初创公司，致力于满足用户的需求，而不是满足于现有的ChatGPT界面和捆绑工具它们有更好的UI选项（例如IDE和图像/文档编辑器）、更好的原生集成（例如用于cron重复操作）、更好的隐私/企业保护（例如用于医疗保健和金融），更细粒度的控制（GPT的默认RAG是幼稚且不可配置的）。以下是一些网友列举了相关垂直领域的产品，以及公司的融资情况：从某种意义上说，OpenAI的B2B和B2C部分相互竞争，这在某种程度上是良性竞争OpenAI可以使用来自ChatGPT的RLHF数据进行训练。而新的GPT商店可以看作是，OpenAI为了抓住这些垂直化需求的尝试。与其离开平台，到处支付20美元/月，为什么不留在ChatGPT内部而只需要支付一次，让OpenAI将理论上的收入分配给GPT创作者？对此，大部分创作者也很明智，一般只向ChatGPT发布精简版的应用，作为自己主要平台的一个渠道。在游戏机业务中，众所周知，购买决策往往是由平台独占游戏驱动的。从某种意义上说，ChatGPT的未来会以平台专属模型为特色。所以，当Sora甚至是GPT-5公开发布时，一定会率先登陆自家的平台，也许那将是下一轮ChatGPT的增长点。 ... PC版：手机版：

🔍 发送关键词来寻找群组、频道或视频。