清华大学教授AMiner创始人唐杰的团队做了一个全新的Agent能力榜单，评估基础模型智能体。

清华大学教授AMiner创始人唐杰的团队做了一个全新的Agent能力榜单，评估基础模型智能体。这是一个多维演进基准测试，包括8个不同环境，用于评估大型语言模型（LLMs）在多回合开放式生成环境中的推理和决策能力，通过对25个语言模型的广泛测试，发现顶级商业语言模型在复杂环境中表现出色，且与开源模型之间存在显著差距。AgentBench的数据集，环境，和集成评估包已在 github上发布。 8种不同的环境任务，即操作系统（OS）、数据库（DB）、知识图谱（KG）、卡牌对战（DCG）、情景猜谜（LTP）、家居（Alfworld）、网络购物（WebShop）、和网页浏览（Mind2Web）。使用 AgentBench 对 25 个不同的语言模型进行了全面评估，揭示了领先的商业语言模型与开源模型之间的显着性能差距。对语言模型作为智能体的更广泛讨论的贡献，表明需要进行严格、系统的评估，并提供强大的开源工具来促进此类评估。 ||

在Telegram中查看

相关推荐

开源的基础模型能力评测框架，提供了一套轻量级、易于使用的评测体系，支持主流大模型的性能评估。

开源的基础模型能力评测框架，提供了一套轻量级、易于使用的评测体系，支持主流大模型的性能评估。其主要特点如下：轻量易用的评估框架：无缝设计，界面直观，依赖性极小，部署轻松，可扩展性极佳，适应多样化评估场景。评估方式灵活多样：支持统一提示模板，评估指标丰富，可个性化定制，满足特定需求。高效、快速的推理部署：支持torch、vLLM等多种模型部署策略，实现多实例部署，实现快速评估流程。公开透明的开源排行榜：维护开放、可追溯、可复制的评估排行榜，由社区更新驱动，以确保透明度和可信度。官方权威评测数据：采用广泛认可的官方评测集，确保评测的公平性和标准化，确保结果具有可比性和可重复性。全面而广泛的模型支持：为广泛的模型提供支持，包括来自 Huggingface 开源存储库的模型和个人训练的模型，确保全面的覆盖范围。 | #框架

：开源的视觉-语言(VL)模型，旨在实现真实世界的视觉语言理解。

：开源的视觉-语言(VL)模型，旨在实现真实世界的视觉语言理解。它具有广泛的多模态理解能力，能够处理逻辑图表、网页、公式识别、科学文献、自然图像和复杂场景中的具体智能等。 DeepSeek-VL提供了多个模型版本，包括不同规模和功能的模型，以满足不同的研究和商业应用需求。

开源DBRX高性能大语言模型

开源DBRX高性能大语言模型 DBRX是Databricks开发的开源通用语言模型，在多项标准基准测试上达到了当前开源语言模型的最高水平。DBRX在多项综合基准测试中表现最好，尤其在编程和数学推理方面优于其他开源模型。与开源模型相比，DBRX在MMLU数据集上的表现也是最好的。根据测试，DBRX甚至超过了专门用于编程的CodeLLAMA-70B，并且与商业模型GPT-3.5相当甚至略胜。DBRX也与Gemini 1.0 Pro和Mistral Medium等商业模型有竞争力。 DBRX使用混合专家(MoE)架构，使其在训练和推理上更加高效。与类似参数量的非MoE模型相比，DBRX的推理吞吐量提高2-3倍。DBRX的整体训练效率比之前提高了近4倍，这得益于更好的数据、MoE架构以及其他改进。 DBRX已经在Databricks的GenAI产品中进行了集成，客户可以通过API使用该模型。DBRX的训练代码和模型也在Hugging Face平台上开源。DBRX证明了Databricks可以高效地训练世界级的基础语言模型，也为企业训练自己的基础模型提供了能力。DBRX只是Databricks协助客户训练定制语言模型的一个例子。

IBM 开源 Granite 代码模型

IBM 开源 Granite 代码模型 IBM 开源了它用于辅助编程的代码模型，源代码托管在 GitHub 上，采用 Apache License 2.0 许可证，允许商业使用。与其它 AI 模型不同的是，IBM 致力于避免模型的版权问题，使用了开放数据集如 GitHub Code Clean、Starcoder、开放代码库和 GitHub issues 等进行训练。Granite 是 decoder-only 代码模型，可用于修 bug、解释代码和生成代码文档，使用了 116 种编程语言的代码进行训练，参数规模 30 亿、80 亿、200 亿和 340 亿。IBM 称测试显示 Granite 在开源代码模型中表现最出色。来源，频道：@kejiqu 群组：@kejiquchat

IBM发布开源模型Granite Code 在编程任务中超过谷歌模型

IBM发布开源模型Granite Code 在编程任务中超过谷歌模型 IBM 最近发布了一组名为"Granite Code"的开源型，旨在帮助企业完成各种软件开发任务，并在基准测试中表现出色。这些模型不仅过了一些较大的开源竞争对手，而且在编程任务中展现出了强大的性能。Granite Code 型分为基础模型和指导模型，每种模型都有四个不同规模的变种，参数数量从30到340亿不等。这些模型的上下文窗口相对较短，例如，其中一个模型的上下文窗口只有128K，这限制了其在包含特定文档或自己的代码库等提示信息时的有效性。不过，IBM 目正在开发具有更大上下文窗口的版本。基础模型的训练分为两个阶段。第一阶段使用自116种编程语言的3-4万亿个标记进行训练，以建立广泛的理解能力。在第阶段，这些模型使用来自高质量代码和自然语言数据的5000亿个标记进行进一步训练，以强逻辑推理能力。指导模型是通过对基础模型进行改进而创建的，改进方法包括筛选提交记录、自然语言指令记录和合成生成的代码数据集。在包括代码合成、调试、解释、编辑、学推理等多个基准测试中，Granite Code 模型在各个规模和基准测试中表现出色，常常超过开源模型两倍以上的大小。例如，在 HumanEvalPack 基准测试中，Granite-8B-Code-Base 的平均得为33.2%，超过Google最佳表现的 CodeGemma-8B 模型的21.3%，尽管 Granite-8-Code-Base 所使用的标记数量明显较少。这些模型的大部分训练数据来自一个清理过的 GitHub 集 StarCoderData 和其他公开可用的代码库。这一点非常重要，因为目前有一些关于其他代码型（包括 GitHub 本身）涉嫌侵犯训练数据版权的诉讼。IBM 计划定期更新这些模型，很快将推出具有更大上下文窗口以及针对 Python 和 Java 的专业化版本。这些模型已经在 Hugging FaceGitHub 上可用，并且也是 IBM 的 watsonx 企业平台的一部分。IBM 的 Granite Code 是一专门用于编程的开源模型，它们在基准测试中表现优异，同时具有较少的参数数量。些模型的特点包括灵活的规模选择、基于广泛训练数据的逻辑推理能力和良好的性能未来，IBM 还计划不断改进和更新这些模型，以满足不同编程任务的需求。产品入口: ... PC版：手机版：

用于评估大型语言模型(LLM) Agent在多步多模态任务中的工具使能力的基准数据集，包含超过 4000 个多步多模态任务，这些

用于评估大型语言模型(LLM) Agent在多步多模态任务中的工具使能力的基准数据集，包含超过 4000 个多步多模态任务，这些任务涉及 33 种工具，包括 13 种多模态模型、9 个公共 API 和 11 个图像处理模块 | #数据集

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人