Scale AI发布首个大语言模型排行榜对特定领域的AI模型性能进行排名

Scale AI发布首个大语言模型排行榜对特定领域的AI模型性能进行排名 SEAL 排行榜显示，OpenAI 的 GPT 系列 LLM 在其用于人工智能模型排名的四个初始领域中的三个领域排名第一，Anthropic PBC 广受欢迎的 Claude 3 Opus 在第四个领域排名第一。Google LLC 的 Gemini 模型也表现出色，在其中几个领域与 GPT 模型并列第一。Scale AI表示，它之所以创建SEAL排行榜，是因为现在有数以百计的LLM可供公司使用，而人工智能的表现却缺乏透明度。这些排行榜由 Scale AI 的安全、评估和对齐实验室（Safety, Evaluations, and Alignment Lab）开发，并声称通过拒绝透露其用于评估 LLM 的提示的性质来保持中立性和完整性。该公司指出，虽然也有其他对LLM进行排名的努力，如MLCommons的基准和斯坦福HAI的透明度指数，但其在人工智能训练数据方面的专业知识意味着它在克服人工智能研究人员所面临的一些挑战方面具有独特的优势。例如，Scale AI指出，MLCommon的基准是公开的，因此公司可以对其模型进行专门训练，以准确响应他们使用的提示。SEAL 开发了私有的评估数据集，以保持其排名的完整性，据说其测试是由经过验证的领域专家创建的。此外，所使用的提示和给出的排名都经过仔细评估，以确保其可信度，同时通过公布所使用评估方法的明确解释来确保透明度。Scale AI 表示，在 Scale Coding 领域，每个模型都要在随机选择的提示上与评估中的其他模型进行至少 50 次比较，以确保结果的准确性。编码评估试图评估每个模型生成计算机代码的能力，排行榜显示，OpenAI 的 GPT-4 Turbo Preview 和 GPT-4o 模型与Google的 Gemini 1.5 Pro（I/O 后）并列第一。之所以将它们并列第一，是因为 Scale AI 只声称其评估分数的置信度为 95%，而且前三名之间的差距很小。尽管如此，GPT-4 Turbo Preview 似乎略胜一筹，获得了 1155 分，GPT-4o 以 1144 分位居第二，Gemini 1.5 Pro（Post I/O）获得了 1112 分。在多语言领域，GPT-4o 和 Gemini 1.5 Pro（Post I/O）并列第一，得分分别为 1139 分和 1129 分，GPT-4 Turbo 和 Gemini Pro 1.5（Pre I/O）紧随其后，并列第三。GPT-4o 在"指令跟踪"领域也名列前茅，获得 88.57 分，GPT-4 Turbo Preview 以 87.64 分名列第二。结果表明，Google在这一领域仍需努力，因为 OpenAI 最接近的竞争对手是 Meta Platforms 公司的开源 Llama 3 70b Instruct（得分 85.55）和 Mistral 公司的 Mistral Large Latest LLM（得分 85.34）。最后，Scale AI 测试了 LLM 的数学能力。事实证明，Anthropic 的 Claude 3 Opus 以 95.19 的高分拔得头筹，无可争议地获得了第一名，超过了 95.10 的 GPT-4 Turbo Preview 和 94.85 的 GPT-4o。这些比较很有意思，但似乎还不能说明全部问题，因为有很多备受瞩目的龙8国际娱乐城似乎没有被纳入评估范围。例如，AI21实验室公司的Jurassic和Jamba以及Cohere公司的Aya和Command LLM在所有四项评估中都明显缺席，埃隆-马斯克（Elon Musk）的生成式人工智能初创公司xAI Corp.建立的Grok模型也是如此。好消息是，Scale AI 可能会解决LLM排行榜不完整的问题。该公司表示，它打算每年多次更新排行榜，以确保其与时俱进。它将在"可用时"添加新的前沿模型。此外，它还计划在排行榜上添加新的领域，力争成为最值得信赖的大模型第三方评估机构。 ... PC版：手机版：

在Telegram中查看

相关推荐

OpenAI 携手 Scale AI，为企业增强 GPT 模型微调功能

OpenAI 携手 Scale AI，为企业增强 GPT 模型微调功能 OpenAI 近日，宣布和 Scale AI 展开深度合作，在企业环境中增强 GPT-3.5 Turbo 和 GPT-4 大语言模型。OpenAI 表示通过双方的深度合作，可以帮助企业定制 OpenAI 的大语言模型，满足企业的个性化需求。 OpenAI 在博文中再次强调，通过微调 API 发送的所有数据均为客户财产，不会被 OpenAI 或任何其他实体用于训练其他模型。 Scale AI 在数据标签和 AI 解决方案方面有着独到优势，OpenAI 将其列为“首选合作伙伴”。来源，频道：@kejiqu 群组：@kejiquchat 投稿：@kejiqubot

OpenAI 携手 Scale AI，为企业增强 GPT 模型微调功能

OpenAI 携手 Scale AI，为企业增强 GPT 模型微调功能 OpenAI 近日发布新闻稿，宣布和 Scale AI 展开深度合作，在企业环境中增强 GPT-3.5 Turbo 和 GPT-4 大语言模型。 OpenAI 表示通过双方的深度合作，可以帮助企业定制 OpenAI 的大语言模型，满足企业的个性化需求。 OpenAI 在博文中再次强调，通过微调 API 发送的所有数据均为客户财产，不会被 OpenAI 或任何其他实体用于训练其他模型。 Scale AI 在数据标签和 AI 解决方案方面有着独到优势，OpenAI 将其列为“首选合作伙伴”。来源：、、

国内大语言模型的 Elo 机制排行榜。ChatGpt. 作为一个基准，还是被超越了。

国内大语言模型的 Elo 机制排行榜。ChatGpt. 作为一个基准，还是被超越了。 GPT 才是星辰大海。附上链接 https://mp.weixin.qq.com/s/nJTthzmuOREtwugLbwg

LLM排行榜更新：谷歌Bard超过GPT-4 中国玩家未进前十

LLM排行榜更新：谷歌Bard超过GPT-4 中国玩家未进前十排行榜介绍这个LLMs 排行榜（Chatbot Arena基准平台）是由 UC伯克利研究人员主导的LMSYS (Large Model Systems Organization)组织发起的。通过在LLMs 间进行随机匿名的 1V1 battle 方式，并基于 Elo 评级系统得出排名。如下图所示，你可以随便问一个问题，左侧是模型A的回答，右侧是模型B的回答。然后你可以给这两个模型的回答打分，一共有四个选项“A更好；B更好；A和B一样好；A和B一样差”，如果一轮聊天判断不出来，你可以继续聊天，直到选出你认为更好的，但如果在聊天过程中暴露了大模型的身份，则投票将不被计算在内。下图显示了模型A在对战模型B时获胜几率（不包含平局）的比例分布图：下图显示了每种模型组合的battle次数（无平局））下图显示了单个模型相对于所有其他模型的平均胜率：OpenAI霸榜，中国玩家未进前十下图是该榜单目前排名的 Top 10，可以看出GPT-系列模型还是占据绝对优势的（前四名中占据了其三），而 Anthropic旗下的 Claude 系列模型则是在前十中占据了三席。号称是欧洲版OpenAI的 Mistral公司，这次也有两个模型进入前十。另外请看上图最右侧一列，排名 Top 10的模型中，有9家都是闭源的私有模型，这说明开源模型还是有一段路要走。遗憾的是中国玩家的大语言模型没有进入前十。其中排名最高的是李开复创业公司零一万物旗下的 Yi-34B-Chat模型，位居13名。其次是阿里旗下的通义千问 Qwen-14B-chat模型，排名36:再之后是清华教授唐杰创业公司智谱AI旗下的ChatGLM系列模型：需要说明三点：1、有很多中国大厂研发的模型可能没有参与到该榜单排名；2、该榜单是面向全球公众的，所以选择用英文来聊天的用户要远比中文多，这可能对中国玩家研发的大语言模型不利；3、该榜单仅仅统计了20w用户的随机提问和聊天，代表了用户和LLMs聊天的真实评价，但由于用户的提问和专业程度参差不齐，所以评价具有一定的主观性。最后我们说回Google，在裁员和科学家离职创业的内忧外患之际（详情请移步Google危机大爆发！科学家纷纷离职创业、员工裁员不断...），Google24年究竟能不能完成“帝国反击战”呢？让我们拭目以待吧！ ... PC版：手机版：

谷歌新Bard逆袭GPT-4冲上LLM排行榜第二 Jeff Dean高呼我们回来了

谷歌新Bard逆袭GPT-4冲上LLM排行榜第二 Jeff Dean高呼我们回来了基于此，Bard相较于3月份的首次亮相，不仅在表现上有了显著的提升，而且还具备了更多的能力。可以看到，在最新的Gemini Pro-scale加持下，Bard直接蹿升到了排行榜第二名的位置。一口气把之前的两款GPT-4模型斩于马下，甚至和排名第一的GPT-4 Turbo的差距也非常小。虽然Jeff Dean并没有具体阐述“scale”的含义，但从名称上推测，很可能是一个比初代Gemini Pro规模更大的版本。而根据前段时间外媒曝出的内部邮件，搭载Gemini Ultra的Bard Advanced已经全面开放给Google员工试用。也就是说，距离Google最强模型的上线，已经不远了。随着Google对Gemini Pro更新后不断大幅上涨的表现，也让所有人对完全体Gemini Ultra的能力有了更多的期待。不过，新推出的Bard目前只接受了约3,000次评价，而GPT-4的评价次数已高达30,000次。因此，这个结果后续很可能还会发生变动。但不管怎样，这对于Google来说是一项令人瞩目的成就，也让人对即将发布的、预期将超过Gemini Pro-Scale性能的最强AI模型Gemini Ultra充满期待。GoogleBard超越GPT-4跃居第二简单介绍一下，这个由UC伯克利主导，CMU，UCSD等顶级高校共同参与创建的聊天机器人竞技场“Chatbot Arena”，是学术圈内一个很权威的大模型对话能力排行榜。榜单通过类似Moba游戏中的“排位赛”机制，让各家大模型通过PvP的方式来排出性能高低。期间，用户会与模型（不知道具体型号）进行互动，并选择他们更喜欢的回答。而这些投票将会决定模型在排行榜上的名次。这种方式能够有效地避免很多PvE基准测试中可能出现的，通过“刷题”来提高成绩的问题，被业界认为是一个比较客观的大模型能力排行榜。为了便于区分，LMSYS Org指出，目前Gemini Pro市面上总共有3个版本：- Gemini Pro API：用户可以通过Google云的Vertex AI API进行访问- Gemini Pro（dev）API：开发者API可以通过Google AI Studio进行访问- Bard（1月4日更新的Gemini Pro）：是目前唯一可以访问到1月24日更新的Gemini Pro的方式同时，GoogleBard项目的高级总监Sadovsky也透露，排行榜上的Bard和Gemini Pro（API）是两个在微调层面不同的模型，而且Bard可以检索互联网上的信息。在ChatBot Arena中，1月24号更新的Bard由于支持检索互联网，相比于之前放出的Gemini Pro（API）对于实时信息问题的回复提升巨大。从Google的这波更新可以看出，Gemini Pro的潜力似乎远远没有被完全释放，希望Google能再接再厉，对OpenAI一家独大的格局形成挑战。以下是1月14号更新的Bard在ChatBot Arena中的成绩的明细：模型A相对于模型B在所有非平局对决中获胜的比例不同模型组合间对决的次数统计（排除平局情况）通过1000轮随机抽样对Elo评分进行的自举法（Bootstrap）估计在假设等概率抽样和不存在平局的情况下，相对于所有其他模型的平均胜率Elo评分系统Elo等级分制度（Elo rating system）是一种计算玩家相对技能水平的方法，广泛应用在竞技游戏和各类运动当中。其中，Elo评分越高，那么就说明这个玩家越厉害。比如英雄联盟、Dota 2以及吃鸡等等，系统给玩家进行排名的就是这个机制。举个例子，当你在英雄联盟里面打了很多场排位赛后，就会出现一个隐藏分。这个隐藏分不仅决定了你的段位，也决定了你打排位时碰到的对手基本也是类似水平的。而且，这个Elo评分的数值是绝对的。也就是说，当未来加入新的聊天机器人时，我们依然可以直接通过Elo的评分来判断哪个聊天机器人更厉害。具体来说，如果玩家A的评分为Ra，玩家B的评分为Rb，玩家A获胜概率的精确公式（使用以10为底的logistic曲线）为：然后，玩家的评分会在每场对战后线性更新。假设玩家A（评分为Ra）预计获得Ea分，但实际获得Sa分。更新该玩家评分的公式为：网友热议对此，网友提问：现在能够访问的Bard就是这个排名第二的Bard了吗？Google官方回复，是的，而且现在访问的Bard比排行榜的上的Bard还能支持更多的像地图扩展等应用。不过还是有网友吐槽，即使在PvP排行榜上Bard已经取得了很好的成绩，但是对于理解用户需求和解决实际问题的能力，Bard和GPT-4依然还有很大差距。也有网友认为，用能联网的Bard和离线的GPT-4打有失公平。甚至，就这样还没打过……而最有意思的，还要数网友在排行榜中发现的“华点”了：号称是GPT-4最大竞品的Claude居然越更新越弱了。对此，之前有分析认为，Anthropic一直在大力发展的与人类对齐，会严重影响模型的性能。GPT-4 Turbo超长上下文A/B测试有趣的是，这个连Jeff Dean都亲自下场的“刷榜”，正巧就在OpenAI连发5款新模型的第二天。根据OpenAI的介绍，新版GPT-4 Turbogpt-4-0125-preview，不仅大幅改善了模型“偷懒”的情况，而且还极大地提升了代码生成的能力。不过，正如大家对Bard的怀疑，GPT-4这次到底有没有变强也有待验证。对此，AI公司Smol的创始人Shawn Wang，就在超过100k单词的超长上下文中，对比测试了新旧GPT4-Turbo的总结能力。Wang表示，两次测试使用的是完全相同提示词，以及基本相同的语料库。虽然没有严格严格，但每个模型都进行了超过300次的API调用，因此对于总结任务而言，这一结果还是具有一定参考价值的。结果显示，2024年1月的GPT4-Turbo花费了19分钟来生成20,265个单词，相比之下，2023年11月的用16分钟生成了18,884个单词。也就是说，新模型的生成速度大约慢了 18%，且生成文本的长度平均偏长约7%。质量方面：- 2024年1月的模型在主题选择上略有改善，但仍存在问题- 2023年11月的模型会产生更多错误信息- 2024年1月的模型在总结中添加小标题的能力略有提升- 2024年1月的模型出现了一次严重的格式错误，而这在之前是极为罕见的- 2023年11月的模型文本详情更加丰富总体而言，新版GPT4-Turbo在总结这一应用场景上有所退步。左侧：2023年11月；右侧：2024年1月（左右滑动查看全部）OpenAI最后的“开源遗作”两周年不得不说，AI领域的发展过于迅猛，甚至让人对时间的流速都产生了错觉。今天，英伟达高级科学家Jim Fan发推纪念了InstructGPT发布二周年。在这里，OpenAI定义了一套标准流程：预训练 -> 监督式微调 -> RLHF。直到今天，这依然是大家遵循的基本策略（尽管有些许变化，比如DPO）。它不仅仅是大语言模型从学术探索（GPT-3）到转化为具有实际影响力的产品（ChatGPT）的关键转折点，而且也是最后一篇OpenAI详细说明他们如何训练前沿模型的论文。论文地址： InstructGPT在2022年的NeurIPS会议上首次亮相，但它并不是RLHF的发明者。实际上，相关博客将读者引向了OpenAI团队在2017年完成的原始RLHF研究。这项研究最初的目的是解决模拟机器人领域中难以明确定义的任务通过一名人类标注者提供的900个二选一偏好，RLHF让一个简单的“跳跃”机器人在模拟环境中学会了后空翻。论文地址：模型提供了三种规模：1.3B、6B、175B。与旧的、需要复杂提示设计的GPT-3-175B相比，标注者明显更喜欢Instruct-1.3B。微软最知名的“小模型”Phi-1也是1.3B。- InstructGPT展示了如何精彩地呈现研究成果。三个步骤的图表清晰易懂，并且成为AI领域最标志性的图像之一。引言部分直接了当，用粗体突出了8个核心观点。对局限性和偏见的讨论实事求是、坦诚直接。 ... PC版：手机版：

a16z近期公布了他们的开源 AI 资助计划第二期，主要关注两个领域：包括用于训练、托管和评估语言模型的工具以及围绕视觉人工智能

a16z近期公布了他们的开源 AI 资助计划第二期，主要关注两个领域：包括用于训练、托管和评估语言模型的工具以及围绕视觉人工智能构建的模型和社区。第二期有7 个项目：：一个在任何云上运行LLMs、AI和批处理作业的框架，提供最大的成本节省、最高的GPU可用性和托管执行。主要能力有：在任何云上启动作业和集群、排队并运行多个作业，自动管理、轻松访问对象存储、自动选择最便宜的云服务。：用于微调LLMs的工具，支持多种配置和架构。工具支持：训练各种Huggingface模型，如llama、pythia等、支持全面微调、lora、qlora、relora和gptq多种训练方式、使用简单的yaml文件或CLI覆盖自定义配置等。还有很多其他特性。：开源模型、系统和评估平台。开源了 LLM 用的数据集，还有一个 LLM 模型。最著名的还是通过 ELO 算法和机制评估 LLM 质量的项目，这种人工评分的机制比一些数据集的评价方法更加可以反应人类对于 LLM 质量的判断。：用于训练许多LLMs的开放网络爬取数据存储库。这是一个从 2007 年就开始收集的互联网语聊数据库，他们会定期抓取，你可以免费下载所有数据用来训练模型。GPT-3 82%的训练语料来自这个项目。：开源多模态模型（语言和视觉）。端到端训练的大型多模态模型，连接了一个视觉编码器和LLM，用于通用的视觉和语言理解。现在最新的是LLaVA1.5 版本，只是对原始LLaVA进行简单修改，利用了所有公开数据，在单个8-A100节点上约1天内完成训练。：AI动画的平台和开源社区，是一种 AI 生成动画的方式。Deforum的 WebUI 插件和 Discord 社区都是他们在维护。：高影响力AI模型的开放实现。 Phil Wang，也以其在线昵称“lucidrains”而闻名，在AI和机器学习领域是一位杰出人物。以在PyTorch框架中实现各种有趣的AI模型和论文而闻名。他的工作包括Vision Transformer、DALL-E 2、Imagen和MusicLM等的实现。

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人