中文AI能力评测发布,即通用大模型综合性基准。

中文AI能力评测发布,即中文通用大模型综合性基准。 这是针对中文可用的通用大模型的一个测评基准。 它主要回答的问题是:在当前通用大模型大力发展的背景下,中文大模型的效果情况,包括但不限于"这些模型不同任务的效果情况"、"相较于国际上的代表性模型做到了什么程度"、 "这些模型与人类的效果对比如何"。

相关推荐

封面图片

【SuperCLUE发布中文大模型基准测评2023年度报告:国内外差距依然明显】

【SuperCLUE发布中文大模型基准测评2023年度报告:国内外差距依然明显】 12 月 28 日,国内中文模型评测机构 SuperCLUE 发布中文大模型基准测评 2023 年度报告。根据报告,过去半年,国内领军大模型企业实现了大模型代际追赶的奇迹,从 7 月份与 GPT3.5 的 20 分差距,每个月都有稳定且巨大的提升,到 11 月份测评时已经完成总分上对 GPT3.5 的超越。据介绍,本次测评数据选取了 SuperCLUE-12 月测评结果,模型选取了国内外有代表性的 26 个大模型在 12 月份的版本。测评结果显示,国内外差距依然明显。GPT4-Turbo 总分 90.63 分遥遥领先,高于其他国内大模型及国外大模型。其中国内最好模型文心一言 4.0 (API)总分 79.02 分,距离 GPT4-Turbo 有 11.61 分,距离 GPT4(网页)有 4.9 分的差距。但过去 1 年国内大模型已经有了长足的进步。综合能力超过 GPT3.5 和 Gemini-Pro 的模型有 11 个,比如百度的文心一言 4.0、阿里云的通义千问 2.0 和 Qwen-72B-Chat、OPPO 的 AndesGPT、清华 & 智谱 AI 的智谱清言、字节跳动的云雀大模型等都有比较好的表现。另外国内开源模型在中文上表现要好于国外开源模型,如百川智能的 Baichuan2-13B-Chat、阿里云的 Qwen-72B、Yi-34B-Chat 均优于 Llama2-13B-Chat。 快讯/广告 联系 @xingkong888885

封面图片

Stability AI 发布日语 StableLM 模型

Stability AI 发布日语 StableLM 模型 Stability AI 今天发布了日语 StableLM Alpha,将其语言模型产品扩展至国际市场,这是面向日语使用者的性能最佳的公开语言模型。 新的70亿参数通用语言模型旨在为日本用户提供增强的人工智能文本生成能力。Stability AI 表示,在该公司进行的评估中,日语 StableLM 的表现优于其他四种基准日语模型。 新模型发布了两个版本: 和。 基础模型设计用于使用大规模日语和英语训练数据进行一般文本生成。指令模型使用监督微调技术进行额外调整,以遵循用户提示和说明。 此次发布为日本人工智能开发人员和研究人员提供了适合其语言的新生成模型。这也标志着 Stability AI 首次扩展到 Stable Diffusion 等英语语言模型之外。此举标志着随着全球生成式人工智能应用的增加,未来可能会进入其他国际市场。

封面图片

Hugging Face发布生成式AI健康任务测试基准

Hugging Face发布生成式AI健康任务测试基准 人工智能初创公司 Hugging Face 在最新发布的名为 Open Medical-LLM 的基准测试中提出了一种解决方案。Open Medical-LLM 是与非营利组织开放生命科学人工智能(Open Life Science AI)和爱丁堡大学自然语言处理小组的研究人员合作创建的,旨在对生成式人工智能模型在一系列医疗相关任务中的性能进行标准化评估。Open Medical-LLM 本身并不是一个全新的基准,而是将现有的测试集(MedQA、PubMedQA、MedMCQA 等)拼接在一起,旨在探究医学常识和相关领域(如解剖学、药理学、遗传学和临床实践)的模型。该基准包含要求医学推理和理解的选择题和开放式问题,借鉴了美国和印度医学执照考试和大学生物试题库等材料。Hugging Face在一篇博文中写道:"[开放医学-LLM]使研究人员和从业人员能够识别不同方法的优缺点,推动该领域的进一步发展,并最终促进更好的患者护理和治疗效果。"Hugging Face 将该基准定位为对医疗领域生成式人工智能模型的"稳健评估"。但社交媒体上的一些医学专家告诫说,不要对 Open Medical-LLM 抱有过高期望,以免导致不明智的部署。阿尔伯塔大学神经病学住院医生利亚姆-麦考伊(Liam McCoy)在"X"上指出,医学答疑的"人为环境"与实际临床实践之间的差距可能相当大。博文的共同作者、"Hugging Face"研究科学家 Clémentine Fourrier 对此表示赞同。"这些排行榜只应作为针对特定用例探索哪种[生成式人工智能模型]的第一近似值,但随后始终需要进行更深入的测试阶段,以检验模型在真实条件下的局限性和相关性,"Fourrier在 X 上回答说,"医疗[模型]绝对不应该由患者自行使用,而应该经过培训,成为医学博士的辅助工具。"这不禁让人想起Google在泰国尝试将糖尿病视网膜病变的人工智能筛查工具引入医疗系统时的经历。Google创建了一个深度学习系统,可以扫描眼睛图像,寻找视网膜病变的证据,视网膜病变是导致视力丧失的主要原因。但是,尽管理论上具有很高的准确性,该工具在实际测试中被证明并不实用,结果不一致,与实际操作普遍不协调,令患者和护士都感到沮丧。美国食品和药物管理局迄今已批准了 139 种与人工智能相关的医疗设备,其中没有一种使用了生成式人工智能,这很能说明问题。要测试生成式人工智能工具在实验室中的表现如何转化到医院和门诊中,或许更重要的是测试其结果如何随时间变化,这异常困难。这并不是说 Open Medical-LLM 没有用处或信息量不大。结果排行榜可以提醒人们,模型对基本健康问题的回答有多么糟糕。但是,Open Medical-LLM 以及其他任何基准都无法替代经过深思熟虑的真实世界测试。 ... PC版: 手机版:

封面图片

科大讯飞董事长:今年10月将在通用模型上对标ChatGPT,实现中文超越英文相当

科大讯飞董事长:今年10月将在通用模型上对标ChatGPT,实现中文超越英文相当 第七届世界智能大会今日开幕,在创新发展高峰会上,科大讯飞董事长刘庆峰发表主题演讲。他表示,认知大模型成为通用人工智能的曙光。2022年12月15日科大讯飞启动1+N认知智能大模型专项攻关;今年5月6日正式推出了讯飞星火认知大模型。 刘庆峰在现场还公布了讯飞星火今年内的升级时间表:5月6日的版本国内领先,数学能力和中文文本生成已超ChatGPT;6月9日,将突破开放式问答,多轮对话能力再升级,数学能力再升级;8月15日,突破代码能力,多模态交互再升级;10月24日,通用模型对标ChatGPT,实现中文超越,英文相当。(新浪科技) 标签: #科大讯飞 #ChatGPT 频道: @GodlyNews1 投稿: @Godlynewsbot

封面图片

中国 AI 大模型工业应用指数发布

中国 AI 大模型工业应用指数发布 今天(4 日)2024 世界人工智能大会暨人工智能全球治理高级别会议在上海世博中心启幕。在 “AI 赋工业,数智启未来” 人工智能赋能新型工业化主题论坛上,《中国 AI 大模型工业应用指数(2024 年)》发布。随着人工智能技术的快速迭代发展,AI 大模型工业应用场景不断丰富。“中国 AI 大模型工业应用指数” 旨在及时跟踪国内外 AI 大模型技术发展态势,挖掘大模型潜在工业应用场景,系统评估通用人工智能与工业融合的进展与成效。指数体系由大模型基础应用能力与行业应用能力构成。大模型基础应用能力包含文生文、图生文等领域的准确性、稳定性能力;大模型的行业应用能力包含民爆、电力、石化、钢铁、医药等重点行业大模型在研发设计、生产制造、运维管理等环节具体场景的应用有效程度。(央视新闻)

封面图片

腾讯自研通用大语言模型亮相

腾讯自研通用大语言模型亮相 中国互联网巨头腾讯集团星期四(9月7日)宣布,集团自行研发的通用大语言模型“混元”正式亮相。 据新京报报道,腾讯高级执行副总裁、云与智慧产业事业群首席执行官汤道生星期四在深圳举行的2023腾讯全球数字生态大会上,作出上述宣布。 据报道,混元大模型是腾讯自研的通用大语言模型。根据介绍,混元可以完成专业领域的多轮问答;支持文学创作、文本摘要、角色扮演;能够基于已有数据或信息进行推理、分析;同时有效解决事实性、时效性问题。 汤道生认为,人工智能(AI)必须应用到具体实践中,才能发挥最大价值。目前,腾讯云、腾讯广告、腾讯游戏、腾讯金融科技、腾讯会议、腾讯文档、微信搜一搜、QQ浏览器等多个腾讯内部业务和产品,已经接入腾讯混元大模型测试,并取得初步效果。 此前一天,一款名为“腾讯混元助手”小程序在微信上线,该产品类似于一款基于混元大模型的用户智能助手,分为“聊天”和“灵感发现”两个栏目,聊天为多模态对话产品,涉及内容十分广泛,比如职场建议、数学问题、旅行攻略、制表格等。目前“腾讯混元助手”小程序仅限受邀用户体验,以手机号为快捷登录方式。 据了解,混元大模型在今年8月已经进入应用内测阶段,可以通过网页或者小程序体验混元大模型,腾讯内部多个业务也已经接入混元大模型进行测试。此前,腾讯内部成立了虚拟项目组,每个应用该模型的业务都抽调了人员参加该项目组。 新京报贝壳财经8月31日曾报道,中国将有11家大模型陆续通过《生成式人工智能服务管理暂行办法》备案,其中腾讯混元大模型正在其中,而与混元一起通过审批的还有北京的五款、上海的三款、广州的一款,以及其他省市的一款。

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人