【SuperCLUE发布中文大模型基准测评2023年度报告:国内外差距依然明显】

【SuperCLUE发布中文大模型基准测评2023年度报告:国内外差距依然明显】 12 月 28 日,国内中文模型评测机构 SuperCLUE 发布中文大模型基准测评 2023 年度报告。根据报告,过去半年,国内领军大模型企业实现了大模型代际追赶的奇迹,从 7 月份与 GPT3.5 的 20 分差距,每个月都有稳定且巨大的提升,到 11 月份测评时已经完成总分上对 GPT3.5 的超越。据介绍,本次测评数据选取了 SuperCLUE-12 月测评结果,模型选取了国内外有代表性的 26 个大模型在 12 月份的版本。测评结果显示,国内外差距依然明显。GPT4-Turbo 总分 90.63 分遥遥领先,高于其他国内大模型及国外大模型。其中国内最好模型文心一言 4.0 (API)总分 79.02 分,距离 GPT4-Turbo 有 11.61 分,距离 GPT4(网页)有 4.9 分的差距。但过去 1 年国内大模型已经有了长足的进步。综合能力超过 GPT3.5 和 Gemini-Pro 的模型有 11 个,比如百度的文心一言 4.0、阿里云的通义千问 2.0 和 Qwen-72B-Chat、OPPO 的 AndesGPT、清华 & 智谱 AI 的智谱清言、字节跳动的云雀大模型等都有比较好的表现。另外国内开源模型在中文上表现要好于国外开源模型,如百川智能的 Baichuan2-13B-Chat、阿里云的 Qwen-72B、Yi-34B-Chat 均优于 Llama2-13B-Chat。 快讯/广告 联系 @xingkong888885

相关推荐

封面图片

通义千问70亿参数模型上线魔搭社区,开源免费可商用

通义千问70亿参数模型上线魔搭社区,开源免费可商用 AI模型社区魔搭ModelScope上架两款开源模型和,阿里云确认其为通义千问70亿参数通用模型和对话模型,两款模型均开源、免费、可商用。在多个权威测评中,通义千问7B模型取得了远超国内外同等尺寸模型的效果,成为当下业界最强的中英文7B开源模型。 Qwen-7B是支持中、英等多种语言的基座模型,在超过2万亿token数据集上训练,上下文窗口长度达到8k。Qwen-7B-Chat是基于基座模型的中英文对话模型,已实现与人类认知对齐。开源代码支持对Qwen-7B和Qwen-7B-Chat的量化,支持用户在消费级显卡上部署和运行模型。 来自:雷锋 频道:@kejiqu 群组:@kejiquchat 投稿:@kejiqubot

封面图片

阿里巴巴开源能理解图像的 AI 模型 Qwen-VL

阿里巴巴开源能理解图像的 AI 模型 Qwen-VL 阿里巴巴周五开源了能理解图像和完成更复杂对话的 AI 模型和 Qwen-VL-Chat。阿里巴巴称,Qwen-VL 基于 Qwen-7B,可以以图像、文本、检测框作为输入,并以文本和检测框作为输出,它使用了约 1.5B 的图文数据训练。在四大类多模态任务的标准英文测评中上,Qwen-VL 均取得同等通用模型大小下最好效果;支持英文、中文等多语言对话,端到端支持图片里中英双语的长文本识别;支持多图输入和比较,指定图片问答,多图文学创作等;相比于目前其它开源 LVLM使用的 224 分辨率,Qwen-VL 是首个开源的 448 分辨率的 LVLM 模型。更高分辨率可以提升细粒度的文字识别、文档问答和检测框标注。Qwen-VL 和 Qwen-VL-Chat 使用名为 Tongyi Qianwen LICENSE AGREEMENT 的许可证,有限制条件,如果商业使用,则需要从阿里巴巴获得授权。来源 , 频道:@kejiqu 群组:@kejiquchat 投稿:@kejiqubot

封面图片

整理了一些目前可用的国内外ChatGPT人工智能语言大模型站点

整理了一些目前可用的国内外ChatGPT人工智能语言大模型站点 国外 -  (免费额度10000条)  (GPT-3.5免费,需翻墙)  (多模型,免登陆,需出国) - AI探索指南 - 国内 文心一言: 讯飞星火大模型: 阿里通义千问: 混元大模型: 字节豆包: 360智障: WPS AI : 百川大模型: 清华大学智谱青言(ChatGLM): 华为盘古AI大模型: 昆仑天工: 京东言犀: 中科院自动化研究所:紫东太初: - AI探索指南

封面图片

国内外AI大模型API价格汇总

国内外AI大模型API价格汇总 最近国内大语言模型API价格内卷,已经出现百度、阿里、科大讯飞等0元免费API,豆包这种超低价模型。这两天特别收集整理了100多个AI大语言模型的API价格,包括上下文长度、人民币/美元两种价格(按7.25汇率换算)、产品链接和价格详情页,并且支持搜索和排序。 网页版

封面图片

零一万物发布Yi大模型API开放平台 首批开放3款大模型

零一万物发布Yi大模型API开放平台 首批开放3款大模型 在全球多项权威评测榜单中,Yi 大模型表现优异,性能直追 GPT-4。此前,Yi 大模型 API已经小范围开放内测,全球已有不少开发者申请使用,并普遍反馈效果超出预期。基于此,此次Yi 大模型 API 正式推出3款模型,给开发者更多惊喜。目前,Yi 大模型API名额限量开放中,新用户赠送60元。Yi 大模型 API 与 OpenAI API 完全兼容,开发者只需修改少量代码,可以平滑迁移。此次 Yi 大模型 API 开放平台提供以下模型:• Yi-34B-Chat-0205:支持通用聊天、问答、对话、写作、翻译等功能。• Yi-34B-Chat-200K:200K 上下文,多文档阅读理解、超长知识库构建小能手。• Yi-VL-Plus: 多模态模型,支持文本、视觉多模态输入,中文图表体验超过 GPT-4V。零一万物API开放平台链接: 30 万个中英文字符,适合用于多篇文档内容理解、海量数据分析挖掘和跨领域知识融合等,在“大海捞针”测试中,Yi-34B-Chat-200K的性能提高了10.5%,从89.3%提升到99.8%。例如,金融分析师可以用Yi-34B-Chat-200K模型快速阅读报告并预测市场趋势、律师可以用它精准解读法律条文、科研人员可以用它高效提取论文要点、文学爱好者可以用它快速掌握作品精髓等,应用场景非常广泛。Yi-34B-Chat-200K 对经典文学作品《呼啸山庄》进行复杂角色和角色关系的归纳总结零一万物开发的多模态模型 Yi-VL-Plus,可支持文本、视觉多模态输入,面向实际应用场景大幅增强,包括:增强Charts, Table, Inforgraphics, Screenshot 识别能力,支持复杂图表理解、信息提取、问答以及推理。中文图表体验超过GPT4V;Yi-VL-Plus模型在一些中文图表理解场景,比GPT-4V准确率更高在 Yi-VL 基础上进一步提高了图片分辨率,模型支持 1024*1024 分辨率输入,显著提高生产力场景中的文字、数字 OCR 的准确性;保持了 LLM 通用语言、知识、推理、指令跟随等能力。同时,零一万物还表示,近期零一万物将为开发者提供更多更强模型和 AI 开发框架,提供更加丰富和灵活的开发工具,以适应多样化的应用场景。相关文章: 估值10亿美元零一万物宣布发布Yi-34B大模型 李开复:不负众望李开复旗下AI公司“零一万物”开源Yi大模型被指抄袭LLaMA零一万物回应大模型架构争议:对模型和训练的理解做了大量工作 ... PC版: 手机版:

封面图片

国内大语言模型的 Elo 机制排行榜。ChatGpt. 作为一个基准,还是被超越了。

国内大语言模型的 Elo 机制排行榜。ChatGpt. 作为一个基准,还是被超越了。 GPT 才是星辰大海。 附上链接 https://mp.weixin.qq.com/s/nJTthzmuOREtwugLbwg

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人