新测试基准发布 最强开源Llama 3尴尬了

新测试基准发布最强开源Llama3尴尬了Llama3的两个指令微调版本实力到底如何,也有了最新参考。与之前大家分数都相近的MTBench相比,Arena-Hard区分度从22.6%提升到87.4%,孰强孰弱一目了然。Arena-Hard利用竞技场实时人类数据构建,与人类偏好一致率也高达89.1%。除了上面两个指标都达到SOTA之外,还有一个额外的好处:实时更新的测试数据包含人类新想出的、AI在训练阶段从未见过的提示词,减轻潜在的数据泄露。并且新模型发布后,无需再等待一周左右时间让人类用户参与投票,只需花费25美元快速运行测试管线,即可得到结果。有网友评价,使用真实用户提示词而不是高中考试来测试,真的很重要。新基准测试如何运作?简单来说,通过大模型竞技场20万个用户查询中,挑选500个高质量提示词作为测试集。首先,挑选过程中确保多样性,也就是测试集应涵盖广泛的现实世界话题。为了确保这一点,团队采用BERTopic中主题建模管道,首先使用OpenAI的嵌入模型(text-embedding-3-small)转换每个提示,使用UMAP降低维度,并使用基于层次结构的模型聚类算法 (HDBSCAN) 来识别聚类,最后使用GPT-4-turbo进行汇总。同时确保入选的提示词具有高质量,有七个关键指标来衡量:-具体性:提示词是否要求特定的输出?-领域知识:提示词是否涵盖一个或多个特定领域?-复杂性:提示词是否有多层推理、组成部分或变量?-解决问题:提示词是否直接让AI展示主动解决问题的能力?-创造力:提示词是否涉及解决问题的一定程度的创造力?-技术准确性:提示词是否要求响应具有技术准确性?-实际应用:提示词是否与实际应用相关?使用GPT-3.5-Turbo和GPT-4-Turbo对每个提示进行从0到7的注释,判断满足多少个条件。然后根据提示的平均得分给每个聚类评分。高质量的问题通常与有挑战性的话题或任务相关,比如游戏开发或数学证明。新基准测试准吗?Arena-Hard目前还有一个弱点:使用GPT-4做裁判更偏好自己的输出。官方也给出了相应提示。可以看出,最新两个版本的GPT-4分数高过Claude3Opus一大截,但在人类投票分数中差距并没有那么明显。其实关于这一点,最近已经有研究论证,前沿模型都会偏好自己的输出。研究团队还发现,AI天生就可以判断出一段文字是不是自己写的,经过微调后自我识别的能力还能增强,并且自我识别能力与自我偏好线性相关。那么使用Claude3来打分会使结果产生什么变化?LMSYS也做了相关实验。首先,Claude系列的分数确实会提高。但令人惊讶的是,它更喜欢几种开放模型如Mixtral和零一万物Yi,甚至对GPT-3.5的评分都有明显提高。总体而言,使用Claude3打分的区分度和与人类结果的一致性都不如GPT-4。所以也有很多网友建议,使用多个大模型来综合打分。除此之外,团队还做了更多消融实验来验证新基准测试的有效性。比如在提示词中加入“让答案尽可能详尽”,平均输出长度更高,分数确实会提高。但把提示词换成“喜欢闲聊”,平均输出长度也有提高,但分数提升就不明显。此外在实验过程中还有很多有意思的发现。比如GPT-4来打分非常严格,如果回答中有错误会狠狠扣分;而Claude3即使识别出小错误也会宽大处理。对于代码问题,Claude3倾向于提供简单结构、不依赖外部代码库,能帮助人类学习编程的答案;而GPT-4-Turbo更倾向最实用的答案,不管其教育价值如何。另外即使设置温度为0,GPT-4-Turbo也可能产生略有不同的判断。从层次结构可视化的前64个聚类中也可以看出,大模型竞技场用户的提问质量和多样性确实是高。这里面也许就有你的贡献。Arena-HardGitHub:https://github.com/lm-sys/arena-hardArena-HardHuggingFace:https://huggingface.co/spaces/lmsys/arena-hard-browser大模型竞技场:https://arena.lmsys.org参考链接:[1]https://x.com/lmsysorg/status/1782179997622649330[2]https://lmsys.org/blog/2024-04-19-arena-hard/...PC版:https://www.cnbeta.com.tw/articles/soft/1428287.htm手机版:https://m.cnbeta.com.tw/view/1428287.htm

相关推荐

封面图片

Anthropic 发布了更强大的 Claude 3 AI 模型

Anthropic发布了更强大的Claude3AI模型当地时间3月4日,由谷歌和亚马逊共同投资的人工智能初创公司Anthropic宣布推出Claude3人工智能模型系列。该系列包括三个版本:Claude3Haiku、Claude3Sonnet和Claude3Opus,每个后续模型都提供越来越强大的性能。目前Claude3系列可支持处理200ktokens的上下文。其中Opus和Sonnet现已可在claude.ai和ClaudeAPI中使用,Haiku即将推出。据该初创公司称,该系列中功能最强大的Claude3Opus在各种基准测试中均优于竞争对手OpenAI的AI模型GPT-4和谷歌的Gemini1.0Ultra。——

封面图片

AI 也玩裙带关系?当上评委后狂为自己人加分

AI也玩裙带关系?当上评委后狂为自己人加分LMSYS提出了一个全新的AI考试,其中使用了两大冠军模型GPT-4Turbo和Claude3Opus作为考官,结果发现它们的"裙带关系"实在难以忽视......当GPT-4作为评审时,OpenAI系列模型呈现集体上大分的景象;而换Claude3上位后画风180°大转弯,OpenAI家族落马的同时Anthropic鸡犬飞升。研究员还发现两位AI考官的裁判风格截然不同,Claude3不愿意给出苛刻的分数,它特别犹豫宣称谁比谁"明显更好"。相比之下,当GPT-4识别出影响答案的错误时,它会给出明显较低的分数来惩罚考生。Claude3也发现了这些错误,但它倾向于将之视为小问题,并在评分时宽大处理。价值判断也是,像在编码问题上,Claude3会选择最具教育价值的回答,提供简单的结构而不依赖外部库。然而GPT-4会优先考虑最实用的答案,无论其对用户的教育价值如何。关注频道@TestFlightCN

封面图片

Meta 发布 Llama 3 —— 迄今最强大的公开语言模型

Meta发布Llama3——迄今最强大的公开语言模型Llama3的8B和70B型号拥有8K上下文窗口,经过15Ttokens预训练,训练数据比Llama2大了七倍,并且包含四倍多的代码。其中Llama3-8B的性能就已优于Llama2-70B。人类择优测试中Llama3-70B远胜于Claude3Sonnet、MistralMedium和GPT-3.5。Llama3的多模态和更大的版本将在数月内推出,其中最为强大的Llama3-400B+仍在训练中,三天前的基准测试结果已经持平Claude3Opus超过GeminiPro1.5,仅数学落后最先进的GPT-4-2024-04-09。线索:@ZaiHuabot投稿:@TNSubmbot频道:@TestFlightCN

封面图片

最强开源大模型!Llama 3下周“小试牛刀”?

最强开源大模型!Llama3下周“小试牛刀”?当地时间周一,科技媒体TheInformation援引一位Meta员工消息报道称,该公司计划在下周推出两个小型的Llama3大语言模型(LLM),作为夏季推出正式版Llama3的先行版本。这两个小模型的发布,预计将为Llama3的正式亮相进行铺垫。Meta在去年7月份发布了Llama2,此后,包括谷歌、马斯克旗下的xAI与Mistral等在内的数家公司发布了开源的大语言模型,竞争十分激烈。Llama3直接对标OpenAI的GPT-4,后者已经成为一个强大的多模态模型,不仅能够处理更长的文本,还支持图像输入。报道称,正式版Llama3也将支持多模态处理,即同时理解和生成文本及图片;而先行推出的两个小版本则不具备这一能力。标签:#Meta#Llama#AI频道:@GodlyNews1投稿:@GodlyNewsBot

封面图片

最强开源大模型一夜易主:谷歌Gemma 7B碾压Llama 2 13B 重燃开源之战

最强开源大模型一夜易主:谷歌Gemma7B碾压Llama213B重燃开源之战与此同时,谷歌还放出了16页的技术报告。谷歌表示,Gemma这个名字源自拉丁语「gemma」,也就是「宝石」的意思,似乎是在象征着它的珍贵性。历史上,Transformers、TensorFlow、BERT、T5、JAX、AlphaFold和AlphaCode,都是谷歌为开源社区贡献的创新。而谷歌今天在全球范围内同步推出的Gemma,必然会再一次掀起构建开源AI的热潮。同时也坐实了OpenAI「唯一ClosedAI」的名头。OpenAI最近刚因为Sora火到爆,Llame据称也要有大动作,谷歌这就又抢先一步。硅谷大厂,已经卷翻天了!HuggingFaceCEO也跟帖祝贺。还贴出了Gemma登上HuggingFace热榜的截图。Keras作者FrançoisChollet直言:最强开源大模型,今日易主了。有网友已经亲自试用过,表示Gemma7B真是速度飞快。谷歌简直是用Gemini拳打GPT-4,用Gemma脚踢Llama2!网友们也是看热闹不嫌事大,召唤MistralAI和OpenAI今晚赶快来点大动作,别让谷歌真的抢了头条。(手动狗头)可以看到,Gemma-7B模型在涵盖一般语言理解、推理、数学和编码的8项基准测试中,性能已经超越了Llama27B和13B!并且,它也超越了Mistral7B模型的性能,尤其是在数学、科学和编码相关任务中。在安全性方面,经过指令微调的Gemma-2BIT和Gemma-7BIT模型,在人类偏好评估中都超过了Mistal-7Bv0.2模型。特别是Gemma-7BIT模型,它在理解和执行具体指令方面,表现得更加出色。这次,除了模型本身,谷歌还提供了一套工具帮助开发者,确保Gemma模型负责任的使用,帮助开发者用Gemma构建更安全的AI应用程序。-谷歌为JAX、PyTorch和TensorFlow提供了完整的工具链,支持模型推理和监督式微调(SFT),并且完全兼容最新的Keras3.0。-通过预置的Colab和Kagglenotebooks,以及与HuggingFace、MaxText、NVIDIANeMo和TensorRT-LLM等流行工具的集成,用户可以轻松开始探索Gemma。-Gemma模型既可以在个人笔记本电脑和工作站上运行,也可以在GoogleCloud上部署,支持在VertexAI和GoogleKubernetesEngine(GKE)上的简易部署。-谷歌还对Gemma进行了跨平台优化,确保了它在NVIDIAGPU和GoogleCloudTPU等多种AI硬件上的卓越性能。并且,使用条款为所有组织提供了负责任的商业使用和分发权限,不受组织规模的限制。不过,Gemma并没有能够在所有的榜单中,都拿下SOTA。在官方放出的评测中,Gemma7B在MMLU、HellaSwag、SIQA、CQA、ARC-e、HumanEval、MBPP、GSM8K、MATH和AGIEval中,成功击败了Llama27B和13B模型。相比之下,Gemma7B在Boolq测试中,只与Mistral7B打了个平手。而在PIQA、ARC-c、Winogrande和BBH中,则不敌Mistral7B。在OBQA和trivalentQA中,更是同时被7B和13B规模的Llama27B斩于马下。谷歌这次发布的两个版本的Gemma模型,70亿参数的模型用于GPU和TPU上的高效部署和开发,20亿参数的模型用于CPU和端侧应用程序。在18个基于文本的任务中的11个中,Gemma都优于相似参数规模的开源模型,例如问答、常识推理、数学和科学、编码等任务。模型架构方面,Gemma在Transformer的基础上进行了几项改进,从而在处理复杂任务时能够展现出更加出色的性能和效率。-多查询注意力机制其中,7B模型采用了多头注意力机制,而2B模型则使用了多查询注意力机制。结果显示,这些特定的注意力机制能够在不同的模型规模上提升性能。-RoPE嵌入与传统的绝对位置嵌入不同,模型在每一层都使用了旋转位置嵌入技术,并且在模型的输入和输出之间共享嵌入,这样做可以有效减少模型的大小。-GeGLU激活函数将标准的ReLU激活函数替换成GeGLU激活函数,可以提升模型的表现。-归一化化位置(NormalizerLocation)每个Transformer子层的输入和输出都进行了归一化处理。这里采用的是RMSNorm作为归一化层,以确保模型的稳定性和效率。架构的核心参数如下:两种规模的参数如下:Gemma2B和7B分别针对来自网络文档、数学和代码的主要英语数据的2T和6Ttoken,进行了训练。与Gemini不同,这些模型不是多模态的,也没有针对多语言任务的SOTA进行训练。谷歌使用了Gemini的SentencePiece分词器的子集,来实现兼容性。团队对Gemma2B和7B模型进行了微调,包括有监督的微调(SFT)和基于人类反馈的强化学习(RLHF)。在有监督的微调阶段,研究者使用了一个由纯文本、英文、由人工和机器生成的问题-答案对组成的数据集。在强化学习阶段,则是使用了一个基于英文偏好数据训练出的奖励模型,以及一套精心挑选的高质量提示作为策略。研究者发现,这两个阶段对于提升模型在自动评估和人类偏好评估中的表现,至关重要。研究者根据基于LM的并行评估,选择了数据混合物进行监督微调。给定一组保留prompt,研究者会从测试模型中生成响应,从基准模型中生成对相同提示的响应,随机洗牌,然后要求一个更大、能力更强的模型在两种响应之间表达偏好。研究者构建了不同的提示集,以突出特定的能力,如遵循指令、实事求是、创造性和安全性。我们使用了不同的基于LM的自动评委,采用了一系列技术,如思维链提示、使用评分标准和章程等,以便与人类偏好保持一致。研究者进一步利用来自人类反馈的强化学习(RLHF),对已经进行过有监督微调的模型进行了优化。他们从人类评估者那里收集他们的偏好选择,并在Bradley-Terry模型的基础上,训练了一个奖励函数,这与Gemini项目的做法相似。研究者采用了一个改进版的REINFORCE算法,加入了Kullback–Leibler正则化项,目的是让策略优化这个奖励函数,同时保持与最初调整模型的一致性。与之前的有监督微调阶段相似,为了调整超参数并进一步防止奖励机制被滥用,研究者使用了一个高性能模型作为自动评估工具,并将其与基准模型进行了直接对比。谷歌在多个领域对Gemma进行了性能评估,包括物理和社会推理、问答、编程、数学、常识推理、语言建模、阅读理解等。Gemma2B和7B模型与一系列学术基准测试中的多个外部开源大语言模型进行了比较。在MMLU基准测试中,Gemma7B模型不仅超过了所有规模相同或更小的开源模型,还超过了一些更大的模型,包括Llama213B。然而,基准测试的制定者评估人类专家的表现为89.8%,而GeminiUltra是首个超越此标准的模型,这表明Gemma在达到Gemini和人类水平的性能上,还有很大的提升空间。并且,Gemma模型在数学和编程的基准测试中表现尤为突出。在通常用于评估模型分析能力的数学任务中,Gemma模型在GSM8K和更具挑战性的MATH基准测试上至少领先其他模型10分。同样,在HumanEval上,它们至少领先其他开源模型6分。Gemma甚至在MBPP上超过了专门进行代码微调的CodeLLaMA7B模型的性能(CodeLLaMA得分为41.4%,而Gemma7B得分为44.4%)。近期研究发现,即便是经过精心对齐的人工智能模型,也可能遭受新型对抗攻击,这种攻击能够规避现有的对齐措施。这类攻击有可能使模型行为异常,有时甚至会导致模型重复输出它在训练过程中记住的数据。因此,研究者专注于研究模型的「可检测记忆」能力,这被认为是评估模型记忆能力的一个上限,并已在多项研究中作为通用定义。研究者对Gemma预训练模型进行了记忆测试。具体来说,他们从每个数据集中随机选择了10,000篇文档,并使用文档开头的50个词元作为模型的prompt。测试重点是精确记忆,即如果模型能够基于输入,精确地生成接下来的50token,与原文完全一致,便认为模型「记住了」这段文本。此外,为了探测模型是否能够以改写的形式记忆信息,研究者还测试了模型的「近似记忆」能力,即允许在生成的文本和原文之间存...PC版:https://www.cnbeta.com.tw/articles/soft/1420977.htm手机版:https://m.cnbeta.com.tw/view/1420977.htm

封面图片

laude 3 对比 GPT 4 的优势

Claude3对比GPT4的优势1⃣更高的智能水平:Claude3的旗舰模型Opus在多个领域超越了GPT-4和谷歌的Gemini1.0Ultra,包括本科和研究生水平的知识、数学和复杂任务理解。2⃣更快的响应速度:Claude3可以在实时聊天、自动补全和数据提取等任务中提供几乎即时的响应。其中,Haiku是市场上智能类别最快且性价比最高的模型,可以在不到三秒的时间内阅读一篇带有图表和图形的arXiv论文。3⃣强大的图像处理能力:Claude3具备与其他领先模型相当的图像处理能力,可以处理各种视觉格式,包括照片、图表、图形和技术图解。4⃣减少不必要的拒绝:相较于之前的模型,Claude3的模型(Opus、Sonnet和Haiku)更少地拒绝回答接近系统边界的提示,表现出更加细致的请求理解和更好的拒绝策略。

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人