HuggingFace搭建新系统测试模型能力 通义千问排名第一 部分模型被发现作弊

HuggingFace搭建新系统测试模型能力 通义千问排名第一 部分模型被发现作弊 该平台称以前的数据测试集对于现在新推出的模型来说实在是太简单了,就像是拿初中试卷给高中生考试一样,因此无法真正有效的评估模型能力。而且出于营销和宣传考虑,部分模型实际上存在作弊行为,即使用经过优化的提示词或评估设置来为模型提供最佳机会,这样可以取得更高的分数。这种情况就像是部分 Android 厂商在进行跑分测试时会冻结其他应用释放内存和降低 CPU 使用率,甚至还会通过外部硬件进行降温来获得更过的基准测试分数。基于这种原因 HuggingFace 此前构建了 Open LLM Leaderboard,通过设置完全相同的问题、相同的排序等来评估模型,收集在真实世界中用户也可以重现和可比较的结果。现在为了尽可能获得真实有效的评估结果,HuggingFace 推出了 Open LLM Leaderboard v2 版,使用 300 张英伟达的 H100 加速卡和数据集对模型进行了重新评估。在最新发布的测试中,阿里云推出的通义千问系列模型超过 Meta Llama 系列模型成为综合能力最强的模型,获得第一的具体模型是通义千问 Qwen-72B 版。此次测试有几个特点:测试显示模型参数规模并不是越大越好,也就是有些超大规模参数的模型能力也不是特别好新的评测有效解决了此前评测难度太低的问题,可以更好的反映目前模型的真实能力有迹象表明 AI 公司开始关注于主要测试,而忽略了其他方面的表现,也就是只关注跑分这应该是目前 AI 行业里首次有明确提到测试作弊的说法,也就是一些开发商现在可能会侧重于对基准测试进行优化以取得更好的分数,这种情况显然是不好的,但由于 AI 公司现在实在是太多,这些公司为了表现自己用于宣传或融资等目的,只能尽可能优化分数来吸引人注意。除了常规的作弊方法外 (就是上面提到的使用优化后的提示词和测试设置),这种针对基准测试进行优化的做法难以发现,未来行业可能要花费更多时间构建更独特的测试集来评估模型。 ... PC版: 手机版:

相关推荐

封面图片

阿里云AI大模型通义千问正式开放

阿里云AI大模型通义千问正式开放 阿里云星期三(9月13日)宣布通义千问大模型已首批通过备案,并正式向公众开放。 据“阿里云”公众号消息,阿里云方面介绍,通义千问在技术创新和行业应用上均位居大模型行业前列。IDC最新的AI大模型评估报告显示,通义千问在全部11项测试中获得通用能力、服务能力、创新能力、服务能力、平台能力、生态合作、电商行业应用六项满分,名列前茅。 用户可登录通义千问官网体验,企业用户可以通过阿里云调用通义千问API。 据阿里云方面介绍,今年4月,阿里云通义千问开启邀测,仅一个月就有超20万企业和机构用户申请接入通义千问测试。目前,OPPO、得物、钉钉、淘宝、浙江大学等已与阿里云达成合作,基于通义千问训练自己的专属大模型或开发大模型应用。 阿里云是中国首个开源自研大模型的科技大厂。阿里云方面表示,近期将开源一个更大参数规模的大模型版本,供全社会免费商用。阿里云希望和全行业共建大模型开源生态,降低大模型使用的门槛,让大模型技术更好地为每个企业和个人所用。

封面图片

阿里通义千问开源 320 亿参数模型

阿里通义千问开源 320 亿参数模型 4 月 7 日,阿里云通义千问开源 320 亿参数模型 。通义千问此前已开源 5 亿、18 亿、40 亿、70 亿、140 亿和 720 亿参数 6 款大语言模型。 此次开源的 320 亿参数模型,将在性能、效率和内存占用之间实现更理想的平衡。例如,相比通义千问 14B 开源模型,32B 在智能体场景下能力更强;相比通义千问 72B 开源模型,32B 的推理成本更低。通义千问团队希望 32B 开源模型能为企业和开发者提供更高性价比的模型选择。 目前,通义千问共开源了 7 款大语言模型,在海内外开源社区累计下载量突破 300 万。来源, 频道:@kejiqu 群组:@kejiquchat

封面图片

通义千问开源千亿级参数模型

通义千问开源千亿级参数模型 通义千问开源1100亿参数模型Qwen1.5-110B,成为全系列首个千亿级参数开源模型。通义千问1100亿参数模型延续了Qwen1.5系列的Transformer解码器架构,采用了分组查询注意力方法(GQA),使得模型在推理时更加高效。110B模型支持32K上下文长度,具备优秀的多语言能力,支持中、英、法、德、西、俄、日、韩、越、阿拉伯等多种语言。 来源:雪球7X24资讯

封面图片

阿里云发布通义千问2.5 称性能赶超 GPT-4

阿里云发布通义千问2.5 称性能赶超 GPT-4 阿里云9日正式发布通义千问2.5。阿里云方面表示,该模型性能全面赶超 GPT-4 Turbo。阿里云表示,与通义千问2.1版本相比,通义千问2.5的理解能力、逻辑推理、指令遵循、代码能力分别提升9%、16%、19%、10%;与 GPT-4 相比,中文语境下,通义千问2.5文本理解、文本生成、知识问答及生活建议、闲聊及对话、安全风险等多项能力赶超 GPT-4。阿里云称,在权威基准 OpenCompass 上,通义千问2.5得分追平 GPT-4 Turbo,是中国国产大模型首次在该基准取得该项成绩。

封面图片

阿里云发布通义千问2.5 称性能赶超GPT-4

阿里云发布通义千问2.5 称性能赶超GPT-4 中国云计算及人工智能科技公司阿里云发布聊天机器人通义千问2.5大模型,并称该模型性能全面赶超GPT-4。 据第一财经报道,阿里云星期四(5月9日)正式发布通义千问2.5。该公司说,与通义千问2.1版本相比,通义千问2.5的理解能力、逻辑推理、指令遵循、代码能力分别提升9%、16%、19%、10%;与GPT-4相比,中文语境下,通义千问2.5文本理解、文本生成、知识问答及生活建议、闲聊及对话、安全风险等多项能力赶超GPT-4。 阿里云称,随着通义千问2.5的发布,在权威基准OpenCompass上,该模型得分追平GPT-4 Turbo,是中国国产大模型首次在该基准取得该项成绩。 GPT-4 Turbo是人工智能聊天机器人ChatGPT的研发公司OpenAI推出的最新大型语言模型。 此前,中国人工智能巨头商汤科技4月也发布全新升级的日日新SenseNova5.0大模型。澎湃新闻报道,该模型采用混合专家架构(MoE),超10TB tokens训练,覆盖大量合成数据,推理时上下文窗口达200K左右,综合能力全面对标GPT-4 Turbo。 2024年5月9日 7:30 PM

封面图片

【阿里巴巴所有产品未来将接入“通义千问”大模型,进行全面改造】

【阿里巴巴所有产品未来将接入“通义千问”大模型,进行全面改造】 阿里巴巴集团董事会主席兼 CEO、阿里云智能集团 CEO 张勇在云峰会上表示,阿里巴巴所有产品未来将接入“通义千问”大模型,进行全面改造。阿里云已经累积了从飞天云操作系统、芯片到智算平台的“AI+ 云计算”的全栈技术实力,阿里云将把这些 AI 基础设施和大模型能力向所有企业开放,共同推动 AI 产业的发展。

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人