开源的基础模型能力评测框架,提供了一套轻量级、易于使用的评测体系,支持主流大模型的性能评估。

开源的基础模型能力评测框架,提供了一套轻量级、易于使用的评测体系,支持主流大模型的性能评估。 其主要特点如下: 轻量易用的评估框架:无缝设计,界面直观,依赖性极小,部署轻松,可扩展性极佳,适应多样化评估场景。 评估方式灵活多样:支持统一提示模板,评估指标丰富,可个性化定制,满足特定需求。 高效、快速的推理部署:支持torch、vLLM等多种模型部署策略,实现多实例部署,实现快速评估流程。 公开透明的开源排行榜:维护开放、可追溯、可复制的评估排行榜,由社区更新驱动,以确保透明度和可信度。 官方权威评测数据:采用广泛认可的官方评测集,确保评测的公平性和标准化,确保结果具有可比性和可重复性。 全面而广泛的模型支持:为广泛的模型提供支持,包括来自 Huggingface 开源存储库的模型和个人训练的模型,确保全面的覆盖范围。 | #框架

相关推荐

封面图片

YY 在 GitHub 开源的一款高性能、轻量级神经网络部署 #框架 :。

YY 在 GitHub 开源的一款高性能、轻量级神经网络部署 #框架 :。 可将真实人脸快速转换为迪士尼、3D 游戏、油画画像风格的人脸外形,并提供了适配多场景的目标检测、物品分割、对象识别等功能。 已为 Hago、VOO、VFlyCloud、VFly、 马克水印相机等 App 提供 20 余种 AI 能力的支持,覆盖直播、短视频、视频编辑等泛娱乐场景和工程场景

封面图片

一个医疗大语言模型的综合评测框架,具有以下三大特点:

一个医疗大语言模型的综合评测框架,具有以下三大特点: 1.大规模综合性能评测:GenMedicalEval构建了一个覆盖16大主要科室、3个医生培养阶段、6种医学临床应用场景、基于40,000+道医学考试真题和55,000+三甲医院患者病历构建的总计100,000+例医疗评测数据。这一数据集从医学基础知识、临床应用、安全规范等层面全面评估大模型在真实医疗复杂情境中的整体性能,弥补了现有评测基准未能覆盖医学实践中众多实际挑战的不足。 2.深入细分的多维度场景评估:GenMedicalEval融合了医师的临床笔记与医学影像资料,围绕检查、诊断、治疗等关键医疗场景,构建了一系列多样化和主题丰富的生成式评估题目,为现有问答式评测模拟真实临床环境的开放式诊疗流程提供了有力补充。 3.创新性的开放式评估指标和自动化评估模型:为解决开放式生成任务缺乏有效评估指标的难题,GenMedicalEval采用先进的结构化抽取和术语对齐技术,构建了一套创新的生成式评估指标体系,这一体系能够精确衡量生成答案的医学知识准确性。进一步地,基于自建知识库训练了与人工评价相关性较高的医疗自动评估模型,提供多维度医疗评分和评价理由。这一模型的特点是无数据泄露和自主可控,相较于GPT-4等其他模型,具有独特优势。 | #框架

封面图片

5个MLOps开源 #框架 :

5个MLOps开源 #框架 : 1. MLflow : 端到端机器学习生命周期管理 2. PyTorch TorchServe:PyTorch开源模型部署服务器 3. ONNX : 跨框架模型互操作性框架 4. Lyft Amundsen:开源的元数据管理、数据发现平台 5. DVC CML:持续集成和部署

封面图片

Google发布Gemma 2轻量级开放模型 以极小的成本提供强大的性能

Google发布Gemma 2轻量级开放模型 以极小的成本提供强大的性能 Gemma 2 有两种规格:90 亿 (9B) 和 270 亿 (27B) 个参数。新一代模型的推理效率更高,性能也优于第一个 Gemma 模型。Google称,27B 模型的性能可与两倍于其规模的模型相媲美,而 9B 模型的性能则优于 Llama 3 8B 和其他类似规模的开源模型。未来几个月,Google计划发布参数为 2.6B 的 Gemma 2 型号,它将更适合智能手机的人工智能应用场景。新的 Gemma 2 模型可以托管在单个英伟达 A100 80GB Tensor Core GPU、英伟达 H100 Tensor Core GPU 或单个 TPU 主机上,从而降低人工智能基础架构成本。甚至可以通过Hugging Face Transformers在英伟达 RTX 或 GeForce RTX 桌面 GPU 上运行 Gemma 2。从下个月开始,Google云客户可以在Vertex AI上部署和管理 Gemma 2。开发人员现在可以在 Google AI Studio 上试用新的 Gemma 2 模型。在 Gemma 2 的训练过程中,Google对训练前的数据进行了过滤,并根据一套全面的安全指标进行了测试和评估,以识别和减少潜在的偏差和风险。Google通过 Kaggle 或 Colab 免费层免费提供 Gemma 2。学术研究人员可申请Gemma 2 学术研究计划,以获得 Google 云积分。Gemma 2 集高性能、高效率和可访问性于一身,改变了开源人工智能领域的游戏规则,致力于开放访问和负责任的人工智能开发,为人工智能的未来树立了一个积极的榜样。 ... PC版: 手机版:

封面图片

-轻量级LLM交互框架:简化生产代码中语言模型的应用,提供结构化Pydantic模型与非结构化文本输出的互操作性,支持LiteL

-轻量级LLM交互框架:简化生产代码中语言模型的应用,提供结构化Pydantic模型与非结构化文本输出的互操作性,支持LiteLLM等语言模型,定义提示为Python函数,支持异步批处理和快速迭代,适用于大规模生成任务 | #框架

封面图片

:最新的高性能全开源文本嵌入模型

:最新的高性能全开源文本嵌入模型 Nomic发布了第一个完全开源的文本嵌入模型Nomic Embed,其文本长度可达8192,性能超过OpenAI的Ada和其他开源模型。 Nomic Embed的模型权重、训练代码和用于训练的数据集都是完全开源的,可以进行全面审计。 Nomic Embed可以通过Nomic Atlas嵌入API进行商业部署,提供100万免费调用量,也可以通过Nomic Atlas企业版进行可靠、合规的企业级部署。 文本嵌入是现代NLP中一个关键组件,Nomic Embed通过多阶段的对比训练获得。首先预训练BERT,然后在大规模非监督数据上进行对比训练,最后在小规模标注数据上微调。 Nomic Embed在多个基准测试中表现强劲,尤其是在长文本任务上优于Ada。它提供了一个高性能且可审计的开源文本嵌入方案。 Nomic还发布了所有用于训练的数据,以实现完全的模型可审计性。希望社区可以基于Nomic Embed继续推进开源AI。

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人