用于评估语言模型准确性的轻量库,包含多个评估,如 MMLU、MATH、GPQA、DROP、MGSM 和 HumanEval,并为

None

相关推荐

封面图片

是一个用于训练大规模语言模型的轻量工具,具有灵活的数据和模型平行功能

封面图片

:用于实现大语言模型的综合库,提供统一的训练流程和全面的模型评估

封面图片

准确且轻量的全透明语言模型,旨在满足资源受限设备如手机端的需求Ps:已被网友鉴定为垃圾

封面图片

用于评估大型语言模型(LLM) Agent在多步多模态任务中的工具使能力的基准数据集,包含超过 4000 个多步多模态任务,这些

用于评估大型语言模型(LLM) Agent在多步多模态任务中的工具使能力的基准数据集,包含超过 4000 个多步多模态任务,这些任务涉及 33 种工具,包括 13 种多模态模型、9 个公共 API 和 11 个图像处理模块 | #数据集

封面图片

:一个用于评估大型多模态模型的平台

封面图片

:用于生成程序代码的大型语言模型

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人