:一套端到端机器学习 (ML) 研究任务,用于对 AI 研究agent进行基准测试,其中agent的目标是获取给定的数据集和机器

None

相关推荐

封面图片

:用于评估移动设备控制Agent在不同配置下性能的基准测试平台

封面图片

用于评估大型语言模型(LLM) Agent在多步多模态任务中的工具使能力的基准数据集,包含超过 4000 个多步多模态任务,这些

用于评估大型语言模型(LLM) Agent在多步多模态任务中的工具使能力的基准数据集,包含超过 4000 个多步多模态任务,这些任务涉及 33 种工具,包括 13 种多模态模型、9 个公共 API 和 11 个图像处理模块 | #数据集

封面图片

端到端自动化机器学习工具,用于解释和设计生物序列 | #工具 #机器学习

封面图片

是一个用于评估Python代码推理、理解和执行的基准,包含两个任务:CRUXEval-I和CRUXEval-O,用于评估输入和输

是一个用于评估Python代码推理、理解和执行的基准,包含两个任务:CRUXEval-I和CRUXEval-O,用于评估输入和输出预测。 该基准测试包括800个Python函数和输入输出对,最佳模型GPT-4在CRUXEval-I和CRUXEval-O上的pass @ 1 分别达到67%和63%。尽管Code Llama 34B等模型在大量代码数据上进行了训练,但仅达到了47%和44%的准确率。 该基准测试强调了代码推理能力的重要性,并鼓励未来的代码语言模型评估考虑CRUXEval。

封面图片

:为自主Agent设计的仿真环境和基准测试,可在真实Android模拟器上运行,包含116个手工设计的任务,跨越20个应用,支持

封面图片

: Apple的深度网络训练库,用于训练深度神经网络,支持各种任务,包括基础模型(如 CLIP 和 LLM)、目标分类、目标检测

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人