用于评估语言模型准确性的轻量库,包含多个评估,如MMLU、MATH、GPQA、DROP、MGSM和HumanEval,并为Ope

None

相关推荐

封面图片

:大型语言模型评估套件,提供动态数据和实时更新的基准测试,旨在高效、准确地评估语言模型的性能,同时降低成本和时间消耗

封面图片

:用于实现大语言模型的综合库,提供统一的训练流程和全面的模型评估

封面图片

用于评估和理解大型语言模型的统一评估框架,提供了用户友好的API,方便研究人员进行模型性能评估、提示工程和对抗提示攻击评估等。#

封面图片

:准确且轻量的全透明语言模型,旨在满足资源受限设备如手机端的需求

封面图片

用于评估大型语言模型(LLM)Agent在多步多模态任务中的工具使能力的基准数据集,包含超过4000个多步多模态任务,这些任务涉

封面图片

是一个用于训练大规模语言模型的轻量工具,具有灵活的数据和模型平行功能

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人