用于评估大型语言模型(LLM) Agent在多步多模态任务中的工具使能力的基准数据集,包含超过 4000 个多步多模态任务,这些

用于评估大型语言模型(LLM) Agent在多步多模态任务中的工具使能力的基准数据集,包含超过 4000 个多步多模态任务,这些任务涉及 33 种工具,包括 13 种多模态模型、9 个公共 API 和 11 个图像处理模块 | #数据集

相关推荐

封面图片

【李开复:未来的大模型将拥有多模态和执行任务的功能】

【李开复:未来的大模型将拥有多模态和执行任务的功能】 今日中关村论坛上,创新工场董事长李开复对AI2.0中短期做了预测 ,威力强大的大模型将彻底变革人工智能,更多训练数据会带来更高的威力,但同时,高质量数据非常重要,未来的大模型将拥有多模态的功能,和执行任务的功能。AI2.0将成为许多人工智能大型挑战的第一推手,从对话助手和人工智能伴侣(~1年)到元宇宙(5年以上)。

封面图片

是一个用于评估Python代码推理、理解和执行的基准,包含两个任务:CRUXEval-I和CRUXEval-O,用于评估输入和输

是一个用于评估Python代码推理、理解和执行的基准,包含两个任务:CRUXEval-I和CRUXEval-O,用于评估输入和输出预测。 该基准测试包括800个Python函数和输入输出对,最佳模型GPT-4在CRUXEval-I和CRUXEval-O上的pass @ 1 分别达到67%和63%。尽管Code Llama 34B等模型在大量代码数据上进行了训练,但仅达到了47%和44%的准确率。 该基准测试强调了代码推理能力的重要性,并鼓励未来的代码语言模型评估考虑CRUXEval。

封面图片

a16z近期公布了他们的开源 AI 资助计划第二期,主要关注两个领域:包括用于训练、托管和评估语言模型的工具以及围绕视觉人工智能

a16z近期公布了他们的开源 AI 资助计划第二期,主要关注两个领域:包括用于训练、托管和评估语言模型的工具以及围绕视觉人工智能构建的模型和社区。第二期有7 个项目: :一个在任何云上运行LLMs、AI和批处理作业的框架,提供最大的成本节省、最高的GPU可用性和托管执行。 主要能力有:在任何云上启动作业和集群、排队并运行多个作业,自动管理、轻松访问对象存储、自动选择最便宜的云服务。 :用于微调LLMs的工具,支持多种配置和架构。 工具支持:训练各种Huggingface模型,如llama、pythia等、支持全面微调、lora、qlora、relora和gptq多种训练方式、使用简单的yaml文件或CLI覆盖自定义配置等。还有很多其他特性。 :开源模型、系统和评估平台。 开源了 LLM 用的数据集,还有一个 LLM 模型。最著名的还是通过 ELO 算法和机制评估 LLM 质量的项目,这种人工评分的机制比一些数据集的评价方法更加可以反应人类对于 LLM 质量的判断。 :用于训练许多LLMs的开放网络爬取数据存储库。 这是一个从 2007 年就开始收集的互联网语聊数据库,他们会定期抓取,你可以免费下载所有数据用来训练模型。GPT-3 82%的训练语料来自这个项目。 :开源多模态模型(语言和视觉)。 端到端训练的大型多模态模型,连接了一个视觉编码器和LLM,用于通用的视觉和语言理解。 现在最新的是LLaVA1.5 版本,只是对原始LLaVA进行简单修改,利用了所有公开数据,在单个8-A100节点上约1天内完成训练。 :AI动画的平台和开源社区,是一种 AI 生成动画的方式。Deforum的 WebUI 插件和 Discord 社区都是他们在维护。 :高影响力AI模型的开放实现。 Phil Wang,也以其在线昵称“lucidrains”而闻名,在AI和机器学习领域是一位杰出人物。以在PyTorch框架中实现各种有趣的AI模型和论文而闻名。他的工作包括Vision Transformer、DALL-E 2、Imagen和MusicLM等的实现。

封面图片

:一个 Python 库,用于创建和处理自然语言处理 (NLP) 数据集,以便训练大型语言模型 (LLM)。该库包含一些可扩展的

:一个 Python 库,用于创建和处理自然语言处理 (NLP) 数据集,以便训练大型语言模型 (LLM)。该库包含一些可扩展的模块,允许 NLP 研究人员从无标注 Web 采集高质量文本,并提供 GPU 加速功能。

封面图片

腾讯宣布:开源全球最大甲骨文多模态数据

腾讯宣布:开源全球最大甲骨文多模态数据 2024 世界人工智能大会(WAIC 2024)期间,腾讯公布大模型的最新进展和落地案例。现场,“数字甲骨共创中心” 宣布将全球最大的甲骨文多模态数据集正式开源。(新浪科技)

封面图片

面向Agent的功能强大的搜索引擎,可以在本地运行或通过远程API连接,适用于大型语言模型(LLM)和人类用户,提供超过十亿个来

面向Agent的功能强大的搜索引擎,可以在本地运行或通过远程API连接,适用于大型语言模型(LLM)和人类用户,提供超过十亿个来自Creative Commons、Arxiv、维基百科和Project Gutenberg等多样化来源的高质量嵌入。 | #搜索引擎

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人