开源的基础模型能力评测框架,提供了一套轻量级、易于使用的评测体系,支持主流大模型的性能评估。

开源的基础模型能力评测框架,提供了一套轻量级、易于使用的评测体系,支持主流大模型的性能评估。其主要特点如下:轻量易用的评估框架:无缝设计,界面直观,依赖性极小,部署轻松,可扩展性极佳,适应多样化评估场景。评估方式灵活多样:支持统一提示模板,评估指标丰富,可个性化定制,满足特定需求。高效、快速的推理部署:支持torch、vLLM等多种模型部署策略,实现多实例部署,实现快速评估流程。公开透明的开源排行榜:维护开放、可追溯、可复制的评估排行榜,由社区更新驱动,以确保透明度和可信度。官方权威评测数据:采用广泛认可的官方评测集,确保评测的公平性和标准化,确保结果具有可比性和可重复性。全面而广泛的模型支持:为广泛的模型提供支持,包括来自Huggingface开源存储库的模型和个人训练的模型,确保全面的覆盖范围。#框架

相关推荐

封面图片

苹果发布 OpenELM 大语言模型,基于开源训练和推理框架的语言模型

苹果发布OpenELM大语言模型,基于开源训练和推理框架的语言模型在WWDC24之前,苹果在HuggingFace平台上发布了一个“具有开源训练和推理框架的高效语言模型”,名为OpenELM。苹果这次发布了完整的框架,包括数据准备、训练、微调和评估程序,以及多个预训练的checkpoint和训练日志,以促进开源研究。其源码及预训练的模型权重和训练配方可在苹果Github库中获取。

封面图片

一个医疗大语言模型的综合评测框架,具有以下三大特点:

一个医疗大语言模型的综合评测框架,具有以下三大特点:1.大规模综合性能评测:GenMedicalEval构建了一个覆盖16大主要科室、3个医生培养阶段、6种医学临床应用场景、基于40,000+道医学考试真题和55,000+三甲医院患者病历构建的总计100,000+例医疗评测数据。这一数据集从医学基础知识、临床应用、安全规范等层面全面评估大模型在真实医疗复杂情境中的整体性能,弥补了现有评测基准未能覆盖医学实践中众多实际挑战的不足。2.深入细分的多维度场景评估:GenMedicalEval融合了医师的临床笔记与医学影像资料,围绕检查、诊断、治疗等关键医疗场景,构建了一系列多样化和主题丰富的生成式评估题目,为现有问答式评测模拟真实临床环境的开放式诊疗流程提供了有力补充。3.创新性的开放式评估指标和自动化评估模型:为解决开放式生成任务缺乏有效评估指标的难题,GenMedicalEval采用先进的结构化抽取和术语对齐技术,构建了一套创新的生成式评估指标体系,这一体系能够精确衡量生成答案的医学知识准确性。进一步地,基于自建知识库训练了与人工评价相关性较高的医疗自动评估模型,提供多维度医疗评分和评价理由。这一模型的特点是无数据泄露和自主可控,相较于GPT-4等其他模型,具有独特优势。#框架

封面图片

《开源大模型食用指南》基于Linux环境快速部署开源大模型 | #指南

《》基于Linux环境快速部署开源大模型#指南本项目是一个围绕开源大模型、针对国内初学者、基于AutoDL平台的中国宝宝专属大模型教程,针对各类开源大模型提供包括环境配置、本地部署、高效微调等技能在内的全流程指导,简化开源大模型的部署、使用和应用流程,让更多的普通学生、研究者更好地使用开源大模型,帮助开源、自由的大模型更快融入到普通学习者的生活中。本项目的主要内容包括:基于AutoDL平台(可扩展,例如阿里云)的开源LLM环境配置指南,针对不同模型要求提供不同的详细环境配置步骤;针对国内外主流开源LLM的部署使用教程,包括LLaMA、ChatGLM、InternLM等;开源LLM的部署应用指导,包括命令行调用、在线Demo部署、LangChain框架集成等;开源LLM的全量微调、高效微调方法,包括分布式全量微调、LoRA、ptuning等。

封面图片

基于 OpenAI 的聊天开源框架,旨在实现用户可同时获得多个大模型的并行输出。

基于OpenAI的聊天开源框架,旨在实现用户可同时获得多个大模型的并行输出。其特点在于支持单模型串行回答和多模型并行回答两种模式,可同时给一个或多个大语言模型发送提示并获得返回。目前,OpenAOE支持与多个商业大模型和开源大模型的API对接,包括gpt3.5、gpt4、GooglePalm、Minimax、Claude、Spark等。OpenAOE提供了后端API和WEB端两种方式,满足不同用户的需求。#框架

封面图片

Nomic Embed:最新的高性能全开源文本嵌入模型

:最新的高性能全开源文本嵌入模型Nomic发布了第一个完全开源的文本嵌入模型NomicEmbed,其文本长度可达8192,性能超过OpenAI的Ada和其他开源模型。NomicEmbed的模型权重、训练代码和用于训练的数据集都是完全开源的,可以进行全面审计。NomicEmbed可以通过NomicAtlas嵌入API进行商业部署,提供100万免费调用量,也可以通过NomicAtlas企业版进行可靠、合规的企业级部署。文本嵌入是现代NLP中一个关键组件,NomicEmbed通过多阶段的对比训练获得。首先预训练BERT,然后在大规模非监督数据上进行对比训练,最后在小规模标注数据上微调。NomicEmbed在多个基准测试中表现强劲,尤其是在长文本任务上优于Ada。它提供了一个高性能且可审计的开源文本嵌入方案。Nomic还发布了所有用于训练的数据,以实现完全的模型可审计性。希望社区可以基于NomicEmbed继续推进开源AI。

封面图片

开源大模型使用指南 | #指南

#指南本项目是一个围绕开源大模型、针对国内初学者、基于AutoDL平台的中国宝宝专属大模型教程,针对各类开源大模型提供包括环境配置、本地部署、高效微调等技能在内的全流程指导,简化开源大模型的部署、使用和应用流程,让更多的普通学生、研究者更好地使用开源大模型,帮助开源、自由的大模型更快融入到普通学习者的生活中。本项目的主要内容包括:基于AutoDL平台(可扩展,例如阿里云)的开源LLM环境配置指南,针对不同模型要求提供不同的详细环境配置步骤;针对国内外主流开源LLM的部署使用教程,包括LLaMA、ChatGLM、InternLM等;开源LLM的部署应用指导,包括命令行调用、在线Demo部署、LangChain框架集成等;开源LLM的全量微调、高效微调方法,包括分布式全量微调、LoRA、ptuning等。本项目适合以下学习者:想要使用或体验LLM,但无条件获得或使用相关API;希望长期、低成本、大量应用LLM;对开源LLM感兴趣,想要亲自上手开源LLM;NLP在学,希望进一步学习LLM;希望结合开源LLM,打造领域特色的私域LLM;以及最广大、最普通的学生群体。

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人