【SuperCLUE发布中文大模型基准测评2023年度报告：国内外差距依然明显】

【SuperCLUE发布中文大模型基准测评2023年度报告：国内外差距依然明显】 12 月 28 日，国内中文模型评测机构 SuperCLUE 发布中文大模型基准测评 2023 年度报告。根据报告，过去半年，国内领军大模型企业实现了大模型代际追赶的奇迹，从 7 月份与 GPT3.5 的 20 分差距，每个月都有稳定且巨大的提升，到 11 月份测评时已经完成总分上对 GPT3.5 的超越。据介绍，本次测评数据选取了 SuperCLUE-12 月测评结果，模型选取了国内外有代表性的 26 个大模型在 12 月份的版本。测评结果显示，国内外差距依然明显。GPT4-Turbo 总分 90.63 分遥遥领先，高于其他国内大模型及国外大模型。其中国内最好模型文心一言 4.0 (API）总分 79.02 分，距离 GPT4-Turbo 有 11.61 分，距离 GPT4（网页）有 4.9 分的差距。但过去 1 年国内大模型已经有了长足的进步。综合能力超过 GPT3.5 和 Gemini-Pro 的模型有 11 个，比如百度的文心一言 4.0、阿里云的通义千问 2.0 和 Qwen-72B-Chat、OPPO 的 AndesGPT、清华 & 智谱 AI 的智谱清言、字节跳动的云雀大模型等都有比较好的表现。另外国内开源模型在中文上表现要好于国外开源模型，如百川智能的 Baichuan2-13B-Chat、阿里云的 Qwen-72B、Yi-34B-Chat 均优于 Llama2-13B-Chat。快讯/广告联系 @xingkong888885

在Telegram中查看

相关推荐

通义千问70亿参数模型上线魔搭社区，开源免费可商用

通义千问70亿参数模型上线魔搭社区，开源免费可商用 AI模型社区魔搭ModelScope上架两款开源模型和，阿里云确认其为通义千问70亿参数通用模型和对话模型，两款模型均开源、免费、可商用。在多个权威测评中，通义千问7B模型取得了远超国内外同等尺寸模型的效果，成为当下业界最强的中英文7B开源模型。 Qwen-7B是支持中、英等多种语言的基座模型，在超过2万亿token数据集上训练，上下文窗口长度达到8k。Qwen-7B-Chat是基于基座模型的中英文对话模型，已实现与人类认知对齐。开源代码支持对Qwen-7B和Qwen-7B-Chat的量化，支持用户在消费级显卡上部署和运行模型。来自：雷锋频道：@kejiqu 群组：@kejiquchat 投稿：@kejiqubot

阿里巴巴开源能理解图像的 AI 模型 Qwen-VL

阿里巴巴开源能理解图像的 AI 模型 Qwen-VL 阿里巴巴周五开源了能理解图像和完成更复杂对话的 AI 模型和 Qwen-VL-Chat。阿里巴巴称，Qwen-VL 基于 Qwen-7B，可以以图像、文本、检测框作为输入，并以文本和检测框作为输出，它使用了约 1.5B 的图文数据训练。在四大类多模态任务的标准英文测评中上，Qwen-VL 均取得同等通用模型大小下最好效果；支持英文、中文等多语言对话，端到端支持图片里中英双语的长文本识别；支持多图输入和比较，指定图片问答，多图文学创作等；相比于目前其它开源 LVLM使用的 224 分辨率，Qwen-VL 是首个开源的 448 分辨率的 LVLM 模型。更高分辨率可以提升细粒度的文字识别、文档问答和检测框标注。Qwen-VL 和 Qwen-VL-Chat 使用名为 Tongyi Qianwen LICENSE AGREEMENT 的许可证，有限制条件，如果商业使用，则需要从阿里巴巴获得授权。来源，频道：@kejiqu 群组：@kejiquchat 投稿：@kejiqubot

整理了一些目前可用的国内外ChatGPT人工智能语言大模型站点

整理了一些目前可用的国内外ChatGPT人工智能语言大模型站点国外 - (免费额度10000条）（GPT-3.5免费，需翻墙）（多模型，免登陆，需出国） - AI探索指南 - 国内文心一言：讯飞星火大模型：阿里通义千问：混元大模型：字节豆包： 360智障： WPS AI ：百川大模型：清华大学智谱青言（ChatGLM）：华为盘古AI大模型：昆仑天工：京东言犀：中科院自动化研究所：紫东太初： - AI探索指南

国内外AI大模型API价格汇总

国内外AI大模型API价格汇总最近国内大语言模型API价格内卷，已经出现百度、阿里、科大讯飞等0元免费API，豆包这种超低价模型。这两天特别收集整理了100多个AI大语言模型的API价格，包括上下文长度、人民币/美元两种价格（按7.25汇率换算）、产品链接和价格详情页，并且支持搜索和排序。网页版

零一万物发布Yi大模型API开放平台首批开放3款大模型

零一万物发布Yi大模型API开放平台首批开放3款大模型在全球多项权威评测榜单中，Yi 大模型表现优异，性能直追 GPT-4。此前，Yi 大模型 API已经小范围开放内测，全球已有不少开发者申请使用，并普遍反馈效果超出预期。基于此，此次Yi 大模型 API 正式推出3款模型，给开发者更多惊喜。目前，Yi 大模型API名额限量开放中，新用户赠送60元。Yi 大模型 API 与 OpenAI API 完全兼容，开发者只需修改少量代码，可以平滑迁移。此次 Yi 大模型 API 开放平台提供以下模型：• Yi-34B-Chat-0205：支持通用聊天、问答、对话、写作、翻译等功能。• Yi-34B-Chat-200K：200K 上下文，多文档阅读理解、超长知识库构建小能手。• Yi-VL-Plus: 多模态模型，支持文本、视觉多模态输入，中文图表体验超过 GPT-4V。零一万物API开放平台链接： 30 万个中英文字符，适合用于多篇文档内容理解、海量数据分析挖掘和跨领域知识融合等，在“大海捞针”测试中，Yi-34B-Chat-200K的性能提高了10.5%，从89.3%提升到99.8%。例如，金融分析师可以用Yi-34B-Chat-200K模型快速阅读报告并预测市场趋势、律师可以用它精准解读法律条文、科研人员可以用它高效提取论文要点、文学爱好者可以用它快速掌握作品精髓等，应用场景非常广泛。Yi-34B-Chat-200K 对经典文学作品《呼啸山庄》进行复杂角色和角色关系的归纳总结零一万物开发的多模态模型 Yi-VL-Plus，可支持文本、视觉多模态输入，面向实际应用场景大幅增强，包括：增强Charts, Table, Inforgraphics, Screenshot 识别能力，支持复杂图表理解、信息提取、问答以及推理。中文图表体验超过GPT4V；Yi-VL-Plus模型在一些中文图表理解场景，比GPT-4V准确率更高在 Yi-VL 基础上进一步提高了图片分辨率，模型支持 1024*1024 分辨率输入，显著提高生产力场景中的文字、数字 OCR 的准确性；保持了 LLM 通用语言、知识、推理、指令跟随等能力。同时，零一万物还表示，近期零一万物将为开发者提供更多更强模型和 AI 开发框架，提供更加丰富和灵活的开发工具，以适应多样化的应用场景。相关文章: 估值10亿美元零一万物宣布发布Yi-34B大模型李开复：不负众望李开复旗下AI公司“零一万物”开源Yi大模型被指抄袭LLaMA零一万物回应大模型架构争议：对模型和训练的理解做了大量工作 ... PC版：手机版：

国内大语言模型的 Elo 机制排行榜。ChatGpt. 作为一个基准，还是被超越了。

国内大语言模型的 Elo 机制排行榜。ChatGpt. 作为一个基准，还是被超越了。 GPT 才是星辰大海。附上链接 https://mp.weixin.qq.com/s/nJTthzmuOREtwugLbwg

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人