Scale AI发布首个大语言模型排行榜 对特定领域的AI模型性能进行排名

Scale AI发布首个大语言模型排行榜 对特定领域的AI模型性能进行排名 SEAL 排行榜显示,OpenAI 的 GPT 系列 LLM 在其用于人工智能模型排名的四个初始领域中的三个领域排名第一,Anthropic PBC 广受欢迎的 Claude 3 Opus 在第四个领域排名第一。Google LLC 的 Gemini 模型也表现出色,在其中几个领域与 GPT 模型并列第一。Scale AI表示,它之所以创建SEAL排行榜,是因为现在有数以百计的LLM可供公司使用,而人工智能的表现却缺乏透明度。这些排行榜由 Scale AI 的安全、评估和对齐实验室(Safety, Evaluations, and Alignment Lab)开发,并声称通过拒绝透露其用于评估 LLM 的提示的性质来保持中立性和完整性。该公司指出,虽然也有其他对LLM进行排名的努力,如MLCommons的基准和斯坦福HAI的透明度指数,但其在人工智能训练数据方面的专业知识意味着它在克服人工智能研究人员所面临的一些挑战方面具有独特的优势。例如,Scale AI指出,MLCommon的基准是公开的,因此公司可以对其模型进行专门训练,以准确响应他们使用的提示。SEAL 开发了私有的评估数据集,以保持其排名的完整性,据说其测试是由经过验证的领域专家创建的。此外,所使用的提示和给出的排名都经过仔细评估,以确保其可信度,同时通过公布所使用评估方法的明确解释来确保透明度。Scale AI 表示,在 Scale Coding 领域,每个模型都要在随机选择的提示上与评估中的其他模型进行至少 50 次比较,以确保结果的准确性。编码评估试图评估每个模型生成计算机代码的能力,排行榜显示,OpenAI 的 GPT-4 Turbo Preview 和 GPT-4o 模型与Google的 Gemini 1.5 Pro(I/O 后)并列第一。之所以将它们并列第一,是因为 Scale AI 只声称其评估分数的置信度为 95%,而且前三名之间的差距很小。尽管如此,GPT-4 Turbo Preview 似乎略胜一筹,获得了 1155 分,GPT-4o 以 1144 分位居第二,Gemini 1.5 Pro(Post I/O)获得了 1112 分。在多语言领域,GPT-4o 和 Gemini 1.5 Pro(Post I/O)并列第一,得分分别为 1139 分和 1129 分,GPT-4 Turbo 和 Gemini Pro 1.5(Pre I/O)紧随其后,并列第三。GPT-4o 在"指令跟踪"领域也名列前茅,获得 88.57 分,GPT-4 Turbo Preview 以 87.64 分名列第二。结果表明,Google在这一领域仍需努力,因为 OpenAI 最接近的竞争对手是 Meta Platforms 公司的开源 Llama 3 70b Instruct(得分 85.55)和 Mistral 公司的 Mistral Large Latest LLM(得分 85.34)。最后,Scale AI 测试了 LLM 的数学能力。事实证明,Anthropic 的 Claude 3 Opus 以 95.19 的高分拔得头筹,无可争议地获得了第一名,超过了 95.10 的 GPT-4 Turbo Preview 和 94.85 的 GPT-4o。这些比较很有意思,但似乎还不能说明全部问题,因为有很多备受瞩目的龙8国际娱乐城似乎没有被纳入评估范围。例如,AI21实验室公司的Jurassic和Jamba以及Cohere公司的Aya和Command LLM在所有四项评估中都明显缺席,埃隆-马斯克(Elon Musk)的生成式人工智能初创公司xAI Corp.建立的Grok模型也是如此。好消息是,Scale AI 可能会解决LLM排行榜不完整的问题。该公司表示,它打算每年多次更新排行榜,以确保其与时俱进。它将在"可用时"添加新的前沿模型。此外,它还计划在排行榜上添加新的领域,力争成为最值得信赖的大模型第三方评估机构。 ... PC版: 手机版:

相关推荐

封面图片

OpenAI 携手 Scale AI,为企业增强 GPT 模型微调功能

OpenAI 携手 Scale AI,为企业增强 GPT 模型微调功能 OpenAI 近日发布新闻稿,宣布和 Scale AI 展开深度合作,在企业环境中增强 GPT-3.5 Turbo 和 GPT-4 大语言模型。 OpenAI 表示通过双方的深度合作,可以帮助企业定制 OpenAI 的大语言模型,满足企业的个性化需求。 OpenAI 在博文中再次强调,通过微调 API 发送的所有数据均为客户财产,不会被 OpenAI 或任何其他实体用于训练其他模型。 Scale AI 在数据标签和 AI 解决方案方面有着独到优势,OpenAI 将其列为“首选合作伙伴”。 来源:、、

封面图片

OpenAI 携手 Scale AI,为企业增强 GPT 模型微调功能

OpenAI 携手 Scale AI,为企业增强 GPT 模型微调功能 OpenAI 近日,宣布和 Scale AI 展开深度合作,在企业环境中增强 GPT-3.5 Turbo 和 GPT-4 大语言模型。OpenAI 表示通过双方的深度合作,可以帮助企业定制 OpenAI 的大语言模型,满足企业的个性化需求。 OpenAI 在博文中再次强调,通过微调 API 发送的所有数据均为客户财产,不会被 OpenAI 或任何其他实体用于训练其他模型。 Scale AI 在数据标签和 AI 解决方案方面有着独到优势,OpenAI 将其列为“首选合作伙伴”。来源 , 频道:@kejiqu 群组:@kejiquchat 投稿:@kejiqubot

封面图片

国内大语言模型的 Elo 机制排行榜。ChatGpt. 作为一个基准,还是被超越了。

国内大语言模型的 Elo 机制排行榜。ChatGpt. 作为一个基准,还是被超越了。 GPT 才是星辰大海。 附上链接 https://mp.weixin.qq.com/s/nJTthzmuOREtwugLbwg

封面图片

Chatbot AI_2.6.2

Chatbot AI_2.6.2 适用于任何任务的智能 AI 聊天机器人助手,内置了很多大模型,也包括DeepSeek,GPT4o以及标签所包含的所有模型等 V8 GPT-4o解锁(OpenAI最新最快) o3-mini解锁(OpenAI最新的推理模型) DeepSeek解锁 Claude3.5解锁(Anthropic的模型) Gemini1.5解锁(谷歌最快的模型) Llama3.2解锁(Meta最强大的模型) #ChatbotAI #AI #GPT4oMini #GPT4o #03mini #DeepSeek #Claude #Gemini #Llama 免费资源频道:@ZYPD123 全网搜索群:@soso_Group

封面图片

OpenAI竞争对手Anthropic发布最新AI模型Claude 3.5

OpenAI竞争对手Anthropic发布最新AI模型Claude 3.5 PANews 6月21日消息,据新浪科技科技报道,OpenAI竞争对手Anthropic周四发布了其最新的AI模型Claude 3.5 Sonnet。今年3月,Anthropic推出了Claude 3系列模型。随后,OpenAI在5月份推出了GPT-4o。Anthropic表示,Claude 3.5 Sonnet比之前的主打模型Claude 3 Opus速度更快,也是Anthropic新的Claude 3.5家族的第一款模型。

封面图片

Opera 成为首个内置本地 AI 模型的浏览器

Opera 成为首个内置本地 AI 模型的浏览器 当地时间4月3日,Opera 宣布将在开发者流中为其 Opera One 浏览器中添加对来自大约50个模型系列的150个本地 LLM (大型语言模型) 变体的实验性支持。此举标志着首次可以通过内置功能从浏览器轻松访问和管理本地 LLM。本地 AI 模型是 Opera 在线 Aria AI 服务的免费补充。支持的本地 LLM 包括:Meta 的 Llama、Vicuna、谷歌的 Gemma、Mistral AI 的 Mixtral 等。使用本地大型语言模型意味着用户的数据保存在本地设备上,使他们能够使用生成式人工智能,而无需将信息发送到服务器。

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人