HuggingFace搭建新系统测试模型能力 通义千问排名第一 部分模型被发现作弊

HuggingFace搭建新系统测试模型能力 通义千问排名第一 部分模型被发现作弊 该平台称以前的数据测试集对于现在新推出的模型来说实在是太简单了,就像是拿初中试卷给高中生考试一样,因此无法真正有效的评估模型能力。而且出于营销和宣传考虑,部分模型实际上存在作弊行为,即使用经过优化的提示词或评估设置来为模型提供最佳机会,这样可以取得更高的分数。这种情况就像是部分 Android 厂商在进行跑分测试时会冻结其他应用释放内存和降低 CPU 使用率,甚至还会通过外部硬件进行降温来获得更过的基准测试分数。基于这种原因 HuggingFace 此前构建了 Open LLM Leaderboard,通过设置完全相同的问题、相同的排序等来评估模型,收集在真实世界中用户也可以重现和可比较的结果。现在为了尽可能获得真实有效的评估结果,HuggingFace 推出了 Open LLM Leaderboard v2 版,使用 300 张英伟达的 H100 加速卡和数据集对模型进行了重新评估。在最新发布的测试中,阿里云推出的通义千问系列模型超过 Meta Llama 系列模型成为综合能力最强的模型,获得第一的具体模型是通义千问 Qwen-72B 版。此次测试有几个特点:测试显示模型参数规模并不是越大越好,也就是有些超大规模参数的模型能力也不是特别好新的评测有效解决了此前评测难度太低的问题,可以更好的反映目前模型的真实能力有迹象表明 AI 公司开始关注于主要测试,而忽略了其他方面的表现,也就是只关注跑分这应该是目前 AI 行业里首次有明确提到测试作弊的说法,也就是一些开发商现在可能会侧重于对基准测试进行优化以取得更好的分数,这种情况显然是不好的,但由于 AI 公司现在实在是太多,这些公司为了表现自己用于宣传或融资等目的,只能尽可能优化分数来吸引人注意。除了常规的作弊方法外 (就是上面提到的使用优化后的提示词和测试设置),这种针对基准测试进行优化的做法难以发现,未来行业可能要花费更多时间构建更独特的测试集来评估模型。 ... PC版: 手机版:

相关推荐

封面图片

阿里通义千问开源 320 亿参数模型

阿里通义千问开源 320 亿参数模型 4 月 7 日,阿里云通义千问开源 320 亿参数模型 。通义千问此前已开源 5 亿、18 亿、40 亿、70 亿、140 亿和 720 亿参数 6 款大语言模型。 此次开源的 320 亿参数模型,将在性能、效率和内存占用之间实现更理想的平衡。例如,相比通义千问 14B 开源模型,32B 在智能体场景下能力更强;相比通义千问 72B 开源模型,32B 的推理成本更低。通义千问团队希望 32B 开源模型能为企业和开发者提供更高性价比的模型选择。 目前,通义千问共开源了 7 款大语言模型,在海内外开源社区累计下载量突破 300 万。来源, 频道:@kejiqu 群组:@kejiquchat

封面图片

通义千问开源千亿级参数模型

通义千问开源千亿级参数模型 通义千问开源1100亿参数模型Qwen1.5-110B,成为全系列首个千亿级参数开源模型。通义千问1100亿参数模型延续了Qwen1.5系列的Transformer解码器架构,采用了分组查询注意力方法(GQA),使得模型在推理时更加高效。110B模型支持32K上下文长度,具备优秀的多语言能力,支持中、英、法、德、西、俄、日、韩、越、阿拉伯等多种语言。 来源:雪球7X24资讯

封面图片

阿里云发布通义千问2.5 称性能赶超 GPT-4

阿里云发布通义千问2.5 称性能赶超 GPT-4 阿里云9日正式发布通义千问2.5。阿里云方面表示,该模型性能全面赶超 GPT-4 Turbo。阿里云表示,与通义千问2.1版本相比,通义千问2.5的理解能力、逻辑推理、指令遵循、代码能力分别提升9%、16%、19%、10%;与 GPT-4 相比,中文语境下,通义千问2.5文本理解、文本生成、知识问答及生活建议、闲聊及对话、安全风险等多项能力赶超 GPT-4。阿里云称,在权威基准 OpenCompass 上,通义千问2.5得分追平 GPT-4 Turbo,是中国国产大模型首次在该基准取得该项成绩。

封面图片

英国机构发布测试人工智能模型安全性的工具

英国机构发布测试人工智能模型安全性的工具 英国人工智能安全机构英国安全研究所发布了一套工具集,旨在通过让行业、研究机构和学术界更容易开发人工智能评估来“加强人工智能安全”。该工具集名为 Inspect,可在开源许可证 (特别是 MIT 许可证) 下使用,旨在评估人工智能模型的某些功能,包括模型的核心知识和推理能力,并根据结果生成分数。英国安全研究所声表示,Inspect 标志着“首次由国家支持的机构牵头的人工智能安全测试平台发布以供更广泛使用”。Inspect 由三个基本组件组成:数据集、求解器和评分器。数据集为评估测试提供样本。求解器负责执行测试。评分器评估求解器的工作,并将测试中的分数汇总为指标。Inspect 的内置组件可以通过用 Python 编写的第三方包进行增强。   、、

封面图片

清华大学教授AMiner创始人唐杰的团队做了一个全新的Agent能力榜单,评估基础模型智能体。

清华大学教授AMiner创始人唐杰的团队做了一个全新的Agent能力榜单,评估基础模型智能体。 这是一个多维演进基准测试,包括8个不同环境,用于评估大型语言模型(LLMs)在多回合开放式生成环境中的推理和决策能力,通过对25个语言模型的广泛测试,发现顶级商业语言模型在复杂环境中表现出色,且与开源模型之间存在显著差距。AgentBench的数据集,环境,和集成评估包已在 github上发布。 8种不同的环境任务,即操作系统(OS)、数据库(DB)、知识图谱(KG)、卡牌对战(DCG)、情景猜谜(LTP)、家居(Alfworld)、网络购物(WebShop)、 和网页浏览(Mind2Web)。 使用 AgentBench 对 25 个不同的语言模型进行了全面评估,揭示了领先的商业语言模型与开源模型之间的显着性能差距。对语言模型作为智能体的更广泛讨论的贡献,表明需要进行严格、系统的评估,并提供强大的开源工具来促进此类评估。 ||

封面图片

Google Gemini AI模型官方测试视频 (中文翻译)通过这个你可以全面的了解Gemini AI的能力!根据这个测试

Google Gemini AI模型官方测试视频 (中文翻译)通过这个视频你可以全面的了解Gemini AI的能力!根据这个测试来看确实是很强大,进行了全方位的测试,从正常对话、视图能力、逻辑推理能力、语言翻译能、图像生成能力等都进行了各种测试演示。 #抽屉IT

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人