：一套端到端机器学习 (ML) 研究任务，用于对 AI 研究agent进行基准测试，其中agent的目标是获取给定的数据集和机器

：用于评估移动设备控制Agent在不同配置下性能的基准测试平台

端到端自动化机器学习工具，用于解释和设计生物序列 | #工具 #机器学习

是一个用于评估Python代码推理、理解和执行的基准，包含两个任务：CRUXEval-I和CRUXEval-O，用于评估输入和输

是一个用于评估Python代码推理、理解和执行的基准，包含两个任务：CRUXEval-I和CRUXEval-O，用于评估输入和输出预测。该基准测试包括800个Python函数和输入输出对，最佳模型GPT-4在CRUXEval-I和CRUXEval-O上的pass @ 1 分别达到67%和63%。尽管Code Llama 34B等模型在大量代码数据上进行了训练，但仅达到了47%和44%的准确率。该基准测试强调了代码推理能力的重要性，并鼓励未来的代码语言模型评估考虑CRUXEval。

用于评估大型语言模型(LLM) Agent在多步多模态任务中的工具使能力的基准数据集，包含超过 4000 个多步多模态任务，这些

用于评估大型语言模型(LLM) Agent在多步多模态任务中的工具使能力的基准数据集，包含超过 4000 个多步多模态任务，这些任务涉及 33 种工具，包括 13 种多模态模型、9 个公共 API 和 11 个图像处理模块 | #数据集

: Apple的深度网络训练库，用于训练深度神经网络，支持各种任务，包括基础模型(如 CLIP 和 LLM)、目标分类、目标检测

用于机器人学习和具身AI领域研究的模块化框架

用于机器人学习和具身AI领域研究的模块化框架 RoboHive 生态系统包含一系列预先存在的和新颖的环境，包括 Shadow Hand 的灵巧操纵、Franka 和 Fetch 机器人的全臂操纵任务以及各种四足运动任务。与之前的作品相比，RoboHive 提供了精简且统一的任务界面，利用最新的模拟绑定，具有丰富的视觉多样性任务，并支持现实世界开发的通用硬件驱动程序。 RoboHive 的统一界面为研究人员提供了一个方便且易于访问的平台来研究多种学习范式，例如模仿、强化、多任务和分层学习。 RoboHive 还包括大多数环境的专家演示和基线结果，为基准测试和比较提供了标准。特征：最广泛、多样化的任务集合完全可定制的视觉丰富的任务，专为行为泛化而设计。奖励不可知的任务成功指标支持多种算法系列+预训练基线 Sim 和硬件无关的机器人类，可在 sim <> real 之间轻松转换远程操作支持。人类+专家数据集 | #框架

相关推荐

：用于评估移动设备控制Agent在不同配置下性能的基准测试平台

端到端自动化机器学习工具，用于解释和设计生物序列 | #工具 #机器学习

是一个用于评估Python代码推理、理解和执行的基准，包含两个任务：CRUXEval-I和CRUXEval-O，用于评估输入和输

用于评估大型语言模型(LLM) Agent在多步多模态任务中的工具使能力的基准数据集，包含超过 4000 个多步多模态任务，这些

: Apple的深度网络训练库，用于训练深度神经网络，支持各种任务，包括基础模型(如 CLIP 和 LLM)、目标分类、目标检测

用于机器人学习和具身AI领域研究的模块化框架