清华大学教授AMiner创始人唐杰的团队做了一个全新的Agent能力榜单，评估基础模型智能体。

清华大学教授AMiner创始人唐杰的团队做了一个全新的Agent能力榜单，评估基础模型智能体。这是一个多维演进基准测试，包括8个不同环境，用于评估大型语言模型（LLMs）在多回合开放式生成环境中的推理和决策能力，通过对25个语言模型的广泛测试，发现顶级商业语言模型在复杂环境中表现出色，且与开源模型之间存在显著差距。AgentBench的数据集，环境，和集成评估包已在 github上发布。 8种不同的环境任务，即操作系统（OS）、数据库（DB）、知识图谱（KG）、卡牌对战（DCG）、情景猜谜（LTP）、家居（Alfworld）、网络购物（WebShop）、和网页浏览（Mind2Web）。使用 AgentBench 对 25 个不同的语言模型进行了全面评估，揭示了领先的商业语言模型与开源模型之间的显着性能差距。对语言模型作为智能体的更广泛讨论的贡献，表明需要进行严格、系统的评估，并提供强大的开源工具来促进此类评估。 ||

在Telegram中查看

相关推荐

开源的基础模型能力评测框架，提供了一套轻量级、易于使用的评测体系，支持主流大模型的性能评估。

开源的基础模型能力评测框架，提供了一套轻量级、易于使用的评测体系，支持主流大模型的性能评估。其主要特点如下：轻量易用的评估框架：无缝设计，界面直观，依赖性极小，部署轻松，可扩展性极佳，适应多样化评估场景。评估方式灵活多样：支持统一提示模板，评估指标丰富，可个性化定制，满足特定需求。高效、快速的推理部署：支持torch、vLLM等多种模型部署策略，实现多实例部署，实现快速评估流程。公开透明的开源排行榜：维护开放、可追溯、可复制的评估排行榜，由社区更新驱动，以确保透明度和可信度。官方权威评测数据：采用广泛认可的官方评测集，确保评测的公平性和标准化，确保结果具有可比性和可重复性。全面而广泛的模型支持：为广泛的模型提供支持，包括来自 Huggingface 开源存储库的模型和个人训练的模型，确保全面的覆盖范围。 | #框架

：开源的视觉-语言(VL)模型，旨在实现真实世界的视觉语言理解。

：开源的视觉-语言(VL)模型，旨在实现真实世界的视觉语言理解。它具有广泛的多模态理解能力，能够处理逻辑图表、网页、公式识别、科学文献、自然图像和复杂场景中的具体智能等。 DeepSeek-VL提供了多个模型版本，包括不同规模和功能的模型，以满足不同的研究和商业应用需求。

开源DBRX高性能大语言模型

开源DBRX高性能大语言模型 DBRX是Databricks开发的开源通用语言模型，在多项标准基准测试上达到了当前开源语言模型的最高水平。DBRX在多项综合基准测试中表现最好，尤其在编程和数学推理方面优于其他开源模型。与开源模型相比，DBRX在MMLU数据集上的表现也是最好的。根据测试，DBRX甚至超过了专门用于编程的CodeLLAMA-70B，并且与商业模型GPT-3.5相当甚至略胜。DBRX也与Gemini 1.0 Pro和Mistral Medium等商业模型有竞争力。 DBRX使用混合专家(MoE)架构，使其在训练和推理上更加高效。与类似参数量的非MoE模型相比，DBRX的推理吞吐量提高2-3倍。DBRX的整体训练效率比之前提高了近4倍，这得益于更好的数据、MoE架构以及其他改进。 DBRX已经在Databricks的GenAI产品中进行了集成，客户可以通过API使用该模型。DBRX的训练代码和模型也在Hugging Face平台上开源。DBRX证明了Databricks可以高效地训练世界级的基础语言模型，也为企业训练自己的基础模型提供了能力。DBRX只是Databricks协助客户训练定制语言模型的一个例子。

IBM 开源 Granite 代码模型

IBM 开源 Granite 代码模型 IBM 开源了它用于辅助编程的代码模型，源代码托管在 GitHub 上，采用 Apache License 2.0 许可证，允许商业使用。与其它 AI 模型不同的是，IBM 致力于避免模型的版权问题，使用了开放数据集如 GitHub Code Clean、Starcoder、开放代码库和 GitHub issues 等进行训练。Granite 是 decoder-only 代码模型，可用于修 bug、解释代码和生成代码文档，使用了 116 种编程语言的代码进行训练，参数规模 30 亿、80 亿、200 亿和 340 亿。IBM 称测试显示 Granite 在开源代码模型中表现最出色。来源，频道：@kejiqu 群组：@kejiquchat

用于评估大型语言模型(LLM) Agent在多步多模态任务中的工具使能力的基准数据集，包含超过 4000 个多步多模态任务，这些

用于评估大型语言模型(LLM) Agent在多步多模态任务中的工具使能力的基准数据集，包含超过 4000 个多步多模态任务，这些任务涉及 33 种工具，包括 13 种多模态模型、9 个公共 API 和 11 个图像处理模块 | #数据集

Databricks 发布最大开源大语言模型 DBRX

Databricks 发布最大开源大语言模型 DBRX 美国AI初创公司Databricks周三公布，该公司开发的通用大语言模型 DBRX将开源。DBRX在语言理解、编程、数学和逻辑方面轻松击败了Meta的Llama 2-70B、法国MixtralAI公司的Mixtral 和马斯克旗下xAI开发的Grok-1这类当前流行的开源模型。DBRX 在 30多种不同的最先进模型(SOTA) 基准指标测试中，均优于前述三种大模型。 DBRX 使用混合专家架构(MoE) ，拥有16个专家模型，共1320亿参数。该模型使用 3072 英伟达 H100 GPU在12万亿个token的数据集上进行训练，最大支持32k 的上下文窗口。同时，Databrick 也开源了该模型经过指令微调（instruct finetune）的版本。 ,

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人