中文AI能力评测发布,即通用大模型综合性基准。

中文AI能力评测发布,即中文通用大模型综合性基准。 这是针对中文可用的通用大模型的一个测评基准。 它主要回答的问题是:在当前通用大模型大力发展的背景下,中文大模型的效果情况,包括但不限于"这些模型不同任务的效果情况"、"相较于国际上的代表性模型做到了什么程度"、 "这些模型与人类的效果对比如何"。

相关推荐

封面图片

Hugging Face发布生成式AI健康任务测试基准

Hugging Face发布生成式AI健康任务测试基准 人工智能初创公司 Hugging Face 在最新发布的名为 Open Medical-LLM 的基准测试中提出了一种解决方案。Open Medical-LLM 是与非营利组织开放生命科学人工智能(Open Life Science AI)和爱丁堡大学自然语言处理小组的研究人员合作创建的,旨在对生成式人工智能模型在一系列医疗相关任务中的性能进行标准化评估。Open Medical-LLM 本身并不是一个全新的基准,而是将现有的测试集(MedQA、PubMedQA、MedMCQA 等)拼接在一起,旨在探究医学常识和相关领域(如解剖学、药理学、遗传学和临床实践)的模型。该基准包含要求医学推理和理解的选择题和开放式问题,借鉴了美国和印度医学执照考试和大学生物试题库等材料。Hugging Face在一篇博文中写道:"[开放医学-LLM]使研究人员和从业人员能够识别不同方法的优缺点,推动该领域的进一步发展,并最终促进更好的患者护理和治疗效果。"Hugging Face 将该基准定位为对医疗领域生成式人工智能模型的"稳健评估"。但社交媒体上的一些医学专家告诫说,不要对 Open Medical-LLM 抱有过高期望,以免导致不明智的部署。阿尔伯塔大学神经病学住院医生利亚姆-麦考伊(Liam McCoy)在"X"上指出,医学答疑的"人为环境"与实际临床实践之间的差距可能相当大。博文的共同作者、"Hugging Face"研究科学家 Clémentine Fourrier 对此表示赞同。"这些排行榜只应作为针对特定用例探索哪种[生成式人工智能模型]的第一近似值,但随后始终需要进行更深入的测试阶段,以检验模型在真实条件下的局限性和相关性,"Fourrier在 X 上回答说,"医疗[模型]绝对不应该由患者自行使用,而应该经过培训,成为医学博士的辅助工具。"这不禁让人想起Google在泰国尝试将糖尿病视网膜病变的人工智能筛查工具引入医疗系统时的经历。Google创建了一个深度学习系统,可以扫描眼睛图像,寻找视网膜病变的证据,视网膜病变是导致视力丧失的主要原因。但是,尽管理论上具有很高的准确性,该工具在实际测试中被证明并不实用,结果不一致,与实际操作普遍不协调,令患者和护士都感到沮丧。美国食品和药物管理局迄今已批准了 139 种与人工智能相关的医疗设备,其中没有一种使用了生成式人工智能,这很能说明问题。要测试生成式人工智能工具在实验室中的表现如何转化到医院和门诊中,或许更重要的是测试其结果如何随时间变化,这异常困难。这并不是说 Open Medical-LLM 没有用处或信息量不大。结果排行榜可以提醒人们,模型对基本健康问题的回答有多么糟糕。但是,Open Medical-LLM 以及其他任何基准都无法替代经过深思熟虑的真实世界测试。 ... PC版: 手机版:

封面图片

Databricks 发布最大开源大语言模型 DBRX

Databricks 发布最大开源大语言模型 DBRX 美国AI初创公司Databricks周三公布,该公司开发的通用大语言模型 DBRX将开源。DBRX在语言理解、编程、数学和逻辑方面轻松击败了Meta的Llama 2-70B、法国MixtralAI公司的Mixtral 和 马斯克旗下xAI开发的Grok-1这类当前流行的开源模型。DBRX 在 30多种不同的最先进模型(SOTA) 基准指标测试中,均优于前述三种大模型。 DBRX 使用混合专家架构(MoE) ,拥有16个专家模型,共1320亿参数。该模型使用 3072 英伟达 H100 GPU在12万亿个token的数据集上进行训练,最大支持32k 的上下文窗口。同时,Databrick 也开源了该模型经过指令微调(instruct finetune)的版本。 ,

封面图片

Stability AI 发布日语 StableLM 模型

Stability AI 发布日语 StableLM 模型 Stability AI 今天发布了日语 StableLM Alpha,将其语言模型产品扩展至国际市场,这是面向日语使用者的性能最佳的公开语言模型。 新的70亿参数通用语言模型旨在为日本用户提供增强的人工智能文本生成能力。Stability AI 表示,在该公司进行的评估中,日语 StableLM 的表现优于其他四种基准日语模型。 新模型发布了两个版本: 和。 基础模型设计用于使用大规模日语和英语训练数据进行一般文本生成。指令模型使用监督微调技术进行额外调整,以遵循用户提示和说明。 此次发布为日本人工智能开发人员和研究人员提供了适合其语言的新生成模型。这也标志着 Stability AI 首次扩展到 Stable Diffusion 等英语语言模型之外。此举标志着随着全球生成式人工智能应用的增加,未来可能会进入其他国际市场。

封面图片

开源的基础模型能力评测框架,提供了一套轻量级、易于使用的评测体系,支持主流大模型的性能评估。

开源的基础模型能力评测框架,提供了一套轻量级、易于使用的评测体系,支持主流大模型的性能评估。 其主要特点如下: 轻量易用的评估框架:无缝设计,界面直观,依赖性极小,部署轻松,可扩展性极佳,适应多样化评估场景。 评估方式灵活多样:支持统一提示模板,评估指标丰富,可个性化定制,满足特定需求。 高效、快速的推理部署:支持torch、vLLM等多种模型部署策略,实现多实例部署,实现快速评估流程。 公开透明的开源排行榜:维护开放、可追溯、可复制的评估排行榜,由社区更新驱动,以确保透明度和可信度。 官方权威评测数据:采用广泛认可的官方评测集,确保评测的公平性和标准化,确保结果具有可比性和可重复性。 全面而广泛的模型支持:为广泛的模型提供支持,包括来自 Huggingface 开源存储库的模型和个人训练的模型,确保全面的覆盖范围。 | #框架

封面图片

科大讯飞董事长:今年10月将在通用模型上对标ChatGPT,实现中文超越英文相当

科大讯飞董事长:今年10月将在通用模型上对标ChatGPT,实现中文超越英文相当 第七届世界智能大会今日开幕,在创新发展高峰会上,科大讯飞董事长刘庆峰发表主题演讲。他表示,认知大模型成为通用人工智能的曙光。2022年12月15日科大讯飞启动1+N认知智能大模型专项攻关;今年5月6日正式推出了讯飞星火认知大模型。 刘庆峰在现场还公布了讯飞星火今年内的升级时间表:5月6日的版本国内领先,数学能力和中文文本生成已超ChatGPT;6月9日,将突破开放式问答,多轮对话能力再升级,数学能力再升级;8月15日,突破代码能力,多模态交互再升级;10月24日,通用模型对标ChatGPT,实现中文超越,英文相当。(新浪科技) 标签: #科大讯飞 #ChatGPT 频道: @GodlyNews1 投稿: @Godlynewsbot

封面图片

一个医疗大语言模型的综合评测框架,具有以下三大特点:

一个医疗大语言模型的综合评测框架,具有以下三大特点: 1.大规模综合性能评测:GenMedicalEval构建了一个覆盖16大主要科室、3个医生培养阶段、6种医学临床应用场景、基于40,000+道医学考试真题和55,000+三甲医院患者病历构建的总计100,000+例医疗评测数据。这一数据集从医学基础知识、临床应用、安全规范等层面全面评估大模型在真实医疗复杂情境中的整体性能,弥补了现有评测基准未能覆盖医学实践中众多实际挑战的不足。 2.深入细分的多维度场景评估:GenMedicalEval融合了医师的临床笔记与医学影像资料,围绕检查、诊断、治疗等关键医疗场景,构建了一系列多样化和主题丰富的生成式评估题目,为现有问答式评测模拟真实临床环境的开放式诊疗流程提供了有力补充。 3.创新性的开放式评估指标和自动化评估模型:为解决开放式生成任务缺乏有效评估指标的难题,GenMedicalEval采用先进的结构化抽取和术语对齐技术,构建了一套创新的生成式评估指标体系,这一体系能够精确衡量生成答案的医学知识准确性。进一步地,基于自建知识库训练了与人工评价相关性较高的医疗自动评估模型,提供多维度医疗评分和评价理由。这一模型的特点是无数据泄露和自主可控,相较于GPT-4等其他模型,具有独特优势。 | #框架

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人