用于评估大型语言模型(LLM) Agent在多步多模态任务中的工具使能力的基准数据集,包含超过 4000 个多步多模态任务,这些

用于评估大型语言模型(LLM) Agent在多步多模态任务中的工具使能力的基准数据集,包含超过 4000 个多步多模态任务,这些任务涉及 33 种工具,包括 13 种多模态模型、9 个公共 API 和 11 个图像处理模块 | #数据集

相关推荐

封面图片

是一个用于评估Python代码推理、理解和执行的基准,包含两个任务:CRUXEval-I和CRUXEval-O,用于评估输入和输

是一个用于评估Python代码推理、理解和执行的基准,包含两个任务:CRUXEval-I和CRUXEval-O,用于评估输入和输出预测。 该基准测试包括800个Python函数和输入输出对,最佳模型GPT-4在CRUXEval-I和CRUXEval-O上的pass @ 1 分别达到67%和63%。尽管Code Llama 34B等模型在大量代码数据上进行了训练,但仅达到了47%和44%的准确率。 该基准测试强调了代码推理能力的重要性,并鼓励未来的代码语言模型评估考虑CRUXEval。

封面图片

a16z近期公布了他们的开源 AI 资助计划第二期,主要关注两个领域:包括用于训练、托管和评估语言模型的工具以及围绕视觉人工智能

a16z近期公布了他们的开源 AI 资助计划第二期,主要关注两个领域:包括用于训练、托管和评估语言模型的工具以及围绕视觉人工智能构建的模型和社区。第二期有7 个项目: :一个在任何云上运行LLMs、AI和批处理作业的框架,提供最大的成本节省、最高的GPU可用性和托管执行。 主要能力有:在任何云上启动作业和集群、排队并运行多个作业,自动管理、轻松访问对象存储、自动选择最便宜的云服务。 :用于微调LLMs的工具,支持多种配置和架构。 工具支持:训练各种Huggingface模型,如llama、pythia等、支持全面微调、lora、qlora、relora和gptq多种训练方式、使用简单的yaml文件或CLI覆盖自定义配置等。还有很多其他特性。 :开源模型、系统和评估平台。 开源了 LLM 用的数据集,还有一个 LLM 模型。最著名的还是通过 ELO 算法和机制评估 LLM 质量的项目,这种人工评分的机制比一些数据集的评价方法更加可以反应人类对于 LLM 质量的判断。 :用于训练许多LLMs的开放网络爬取数据存储库。 这是一个从 2007 年就开始收集的互联网语聊数据库,他们会定期抓取,你可以免费下载所有数据用来训练模型。GPT-3 82%的训练语料来自这个项目。 :开源多模态模型(语言和视觉)。 端到端训练的大型多模态模型,连接了一个视觉编码器和LLM,用于通用的视觉和语言理解。 现在最新的是LLaVA1.5 版本,只是对原始LLaVA进行简单修改,利用了所有公开数据,在单个8-A100节点上约1天内完成训练。 :AI动画的平台和开源社区,是一种 AI 生成动画的方式。Deforum的 WebUI 插件和 Discord 社区都是他们在维护。 :高影响力AI模型的开放实现。 Phil Wang,也以其在线昵称“lucidrains”而闻名,在AI和机器学习领域是一位杰出人物。以在PyTorch框架中实现各种有趣的AI模型和论文而闻名。他的工作包括Vision Transformer、DALL-E 2、Imagen和MusicLM等的实现。

封面图片

:一个 Python 库,用于创建和处理自然语言处理 (NLP) 数据集,以便训练大型语言模型 (LLM)。该库包含一些可扩展的

:一个 Python 库,用于创建和处理自然语言处理 (NLP) 数据集,以便训练大型语言模型 (LLM)。该库包含一些可扩展的模块,允许 NLP 研究人员从无标注 Web 采集高质量文本,并提供 GPU 加速功能。

封面图片

清华大学教授AMiner创始人唐杰的团队做了一个全新的Agent能力榜单,评估基础模型智能体。

清华大学教授AMiner创始人唐杰的团队做了一个全新的Agent能力榜单,评估基础模型智能体。 这是一个多维演进基准测试,包括8个不同环境,用于评估大型语言模型(LLMs)在多回合开放式生成环境中的推理和决策能力,通过对25个语言模型的广泛测试,发现顶级商业语言模型在复杂环境中表现出色,且与开源模型之间存在显著差距。AgentBench的数据集,环境,和集成评估包已在 github上发布。 8种不同的环境任务,即操作系统(OS)、数据库(DB)、知识图谱(KG)、卡牌对战(DCG)、情景猜谜(LTP)、家居(Alfworld)、网络购物(WebShop)、 和网页浏览(Mind2Web)。 使用 AgentBench 对 25 个不同的语言模型进行了全面评估,揭示了领先的商业语言模型与开源模型之间的显着性能差距。对语言模型作为智能体的更广泛讨论的贡献,表明需要进行严格、系统的评估,并提供强大的开源工具来促进此类评估。 ||

封面图片

书生·万卷1.0为书生·万卷多模态语料库的首个开源版本,包含文本数据集、图文数据集、视频数据集三部分,数据总体超过2TB。

书生·万卷1.0为书生·万卷多模态语料库的首个开源版本,包含文本数据集、图文数据集、视频数据集三部分,数据总体超过2TB。 基于大模型数据联盟构建的语料库,上海AI实验室对其中部分数据进行了细粒度清洗、去重以及价值梳理,形成了书生·万卷1.0,具备多元融合、精细处理、价值梳理、数学高效等四大特征。 在多元方面,书生·万卷1.0包含文本、图文、视频等多模态数据,范围覆盖科技、融合、媒体、教育、法律等多个领域,在训练提升模型知识内涵、逻辑推理和泛化推理化能力方面具有显着效果。 在精细化处理方面,书生·万卷1.0经历了甄别语言、正文抽取、格式标准化、基于规则及模型的数据过滤与清洗、多维度重整、数据质量评估等精细化数据处理环节,从而能够更好接地装配后续的模型训练需求。 在价值洞察方面,研究人员在书生·万卷1.0的构建过程中,着眼于内容与中文主流价值观结合的洞察,通过算法与人工评估的方式,提升了语料的纯净度。 在高效建模方面,研究人员在书生·万卷1.0统一格式,并提供了详细的参数字段说明和工具指南,综合考虑了建模性和效率,可快速评估语言、多模态等大模型训练。 目前,书生·万卷1.0已被评估书生·多态、书生·浦语的训练。通过对高质量语料的“消化模型”,书生系列模型在语义理解、知识问答、视觉理解、视觉问答等各类生成式任务表现出了优异的性能。 | #语料库

封面图片

是一个开放源代码的项目,为您提供一整套完善的库,用以解构复杂任务并调度 toolkit 中的函数。

是一个开放源代码的项目,为您提供一整套完善的库,用以解构复杂任务并调度 toolkit 中的函数。 该项目采用一种通用的 Agent 设计思路,将复杂任务处理的流程概括为:任务规划(Planner)→ 函数调度(Distributor)→ 函数执行(Worker)→ 结果整合(Solver)。 特点: 工具箱: 该项目包含一个名为real_world的模块,其中定义了toolkit,内置各种完全自定义的工具。 模型易用性: agent和操作者的分离的思想,将模型部署为restful api,需要的时候才会去调用接入llm的api接口。 记忆: 提供memory和flash mind两个模块,分别用于长期和短期记忆。(TO DO)

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人