清华大学教授AMiner创始人唐杰的团队做了一个全新的Agent能力榜单,评估基础模型智能体。

清华大学教授AMiner创始人唐杰的团队做了一个全新的Agent能力榜单,评估基础模型智能体。 这是一个多维演进基准测试,包括8个不同环境,用于评估大型语言模型(LLMs)在多回合开放式生成环境中的推理和决策能力,通过对25个语言模型的广泛测试,发现顶级商业语言模型在复杂环境中表现出色,且与开源模型之间存在显著差距。AgentBench的数据集,环境,和集成评估包已在 github上发布。 8种不同的环境任务,即操作系统(OS)、数据库(DB)、知识图谱(KG)、卡牌对战(DCG)、情景猜谜(LTP)、家居(Alfworld)、网络购物(WebShop)、 和网页浏览(Mind2Web)。 使用 AgentBench 对 25 个不同的语言模型进行了全面评估,揭示了领先的商业语言模型与开源模型之间的显着性能差距。对语言模型作为智能体的更广泛讨论的贡献,表明需要进行严格、系统的评估,并提供强大的开源工具来促进此类评估。 ||

相关推荐

封面图片

开源的基础模型能力评测框架,提供了一套轻量级、易于使用的评测体系,支持主流大模型的性能评估。

开源的基础模型能力评测框架,提供了一套轻量级、易于使用的评测体系,支持主流大模型的性能评估。 其主要特点如下: 轻量易用的评估框架:无缝设计,界面直观,依赖性极小,部署轻松,可扩展性极佳,适应多样化评估场景。 评估方式灵活多样:支持统一提示模板,评估指标丰富,可个性化定制,满足特定需求。 高效、快速的推理部署:支持torch、vLLM等多种模型部署策略,实现多实例部署,实现快速评估流程。 公开透明的开源排行榜:维护开放、可追溯、可复制的评估排行榜,由社区更新驱动,以确保透明度和可信度。 官方权威评测数据:采用广泛认可的官方评测集,确保评测的公平性和标准化,确保结果具有可比性和可重复性。 全面而广泛的模型支持:为广泛的模型提供支持,包括来自 Huggingface 开源存储库的模型和个人训练的模型,确保全面的覆盖范围。 | #框架

封面图片

:开源的视觉-语言(VL)模型,旨在实现真实世界的视觉语言理解。

:开源的视觉-语言(VL)模型,旨在实现真实世界的视觉语言理解。 它具有广泛的多模态理解能力,能够处理逻辑图表、网页、公式识别、科学文献、自然图像和复杂场景中的具体智能等。 DeepSeek-VL提供了多个模型版本,包括不同规模和功能的模型,以满足不同的研究和商业应用需求。

封面图片

开源DBRX高性能大语言模型

开源DBRX高性能大语言模型 DBRX是Databricks开发的开源通用语言模型,在多项标准基准测试上达到了当前开源语言模型的最高水平。DBRX在多项综合基准测试中表现最好,尤其在编程和数学推理方面优于其他开源模型。与开源模型相比,DBRX在MMLU数据集上的表现也是最好的。 根据测试,DBRX甚至超过了专门用于编程的CodeLLAMA-70B,并且与商业模型GPT-3.5相当甚至略胜。DBRX也与Gemini 1.0 Pro和Mistral Medium等商业模型有竞争力。 DBRX使用混合专家(MoE)架构,使其在训练和推理上更加高效。与类似参数量的非MoE模型相比,DBRX的推理吞吐量提高2-3倍。DBRX的整体训练效率比之前提高了近4倍,这得益于更好的数据、MoE架构以及其他改进。 DBRX已经在Databricks的GenAI产品中进行了集成,客户可以通过API使用该模型。DBRX的训练代码和模型也在Hugging Face平台上开源。DBRX证明了Databricks可以高效地训练世界级的基础语言模型,也为企业训练自己的基础模型提供了能力。DBRX只是Databricks协助客户训练定制语言模型的一个例子。

封面图片

IBM 开源 Granite 代码模型

IBM 开源 Granite 代码模型 IBM 开源了它用于辅助编程的代码模型,源代码托管在 GitHub 上,采用 Apache License 2.0 许可证,允许商业使用。与其它 AI 模型不同的是,IBM 致力于避免模型的版权问题,使用了开放数据集如 GitHub Code Clean、Starcoder、开放代码库和 GitHub issues 等进行训练。Granite 是 decoder-only 代码模型,可用于修 bug、解释代码和生成代码文档,使用了 116 种编程语言的代码进行训练,参数规模 30 亿、80 亿、200 亿和 340 亿。IBM 称测试显示 Granite 在开源代码模型中表现最出色。来源 , 频道:@kejiqu 群组:@kejiquchat

封面图片

用于评估大型语言模型(LLM) Agent在多步多模态任务中的工具使能力的基准数据集,包含超过 4000 个多步多模态任务,这些

用于评估大型语言模型(LLM) Agent在多步多模态任务中的工具使能力的基准数据集,包含超过 4000 个多步多模态任务,这些任务涉及 33 种工具,包括 13 种多模态模型、9 个公共 API 和 11 个图像处理模块 | #数据集

封面图片

Databricks 发布最大开源大语言模型 DBRX

Databricks 发布最大开源大语言模型 DBRX 美国AI初创公司Databricks周三公布,该公司开发的通用大语言模型 DBRX将开源。DBRX在语言理解、编程、数学和逻辑方面轻松击败了Meta的Llama 2-70B、法国MixtralAI公司的Mixtral 和 马斯克旗下xAI开发的Grok-1这类当前流行的开源模型。DBRX 在 30多种不同的最先进模型(SOTA) 基准指标测试中,均优于前述三种大模型。 DBRX 使用混合专家架构(MoE) ,拥有16个专家模型,共1320亿参数。该模型使用 3072 英伟达 H100 GPU在12万亿个token的数据集上进行训练,最大支持32k 的上下文窗口。同时,Databrick 也开源了该模型经过指令微调(instruct finetune)的版本。 ,

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人