微软上周的一篇论文，深入探讨了AI智能体的最新实现进展。

微软上周的一篇论文，深入探讨了AI智能体的最新实现进展。对 Agents 有兴可以看看，一篇论文了解 Agents 。详细介绍了 Agents 的主要分类、定义以及设计 Agents 系统的时候需要注意的问题。 Agents 的分类：单一Agent架构：这些架构由一个语言模型驱动，并将自行执行所有推理、规划和工具执行。多Agent架构：这些架构涉及两个或更多代理，每个代理可以利用相同的语言模型或一组不同的语言模型。这些代理可能可以访问相同的工具或不同的工具。每个代理通常有自己的人物形象。多Agent架构又可分为垂直架构和水平架构：垂直架构：在这种结构中，一个代理人充当领导者，其他代理人直接向他们汇报。水平架构：在这种结构中，所有代理都被视为平等的一部分，并参与关于任务的一组讨论。有效Agents的两个关键考虑因素：推理和规划： AI代理要有效地与复杂环境互动、做出自主决策并在各种任务中协助人类，它们需要强大的推理能力。规划，需要强大的推理能力，通常分为五种主要方法：任务分解、多计划选择、外部模块辅助规划、反思和完善以及记忆增强规划。有效工具调用：代理抽象相对于提示基础语言模型的一个关键优势是代理能够通过调用多个工具来解决复杂问题。这些工具使代理能够与外部数据源交互，从现有 API 发送或检索信息等。需要大量工具调用的问题通常与需要复杂推理的问题相辅相成。论文地址：

在Telegram中查看

相关推荐

米哈游最近与复旦NLP实验室合著了一篇86页的AI Agent论文，该论文从认知核心（推理，记忆，规划）、感知（文本，视觉，听觉

米哈游最近与复旦NLP实验室合著了一篇86页的AI Agent论文，该论文从认知核心（推理，记忆，规划）、感知（文本，视觉，听觉）、行动（文本，工具使用，具身）、参与者（单智能体，多智能体，真人与智能体）和环境（虚拟沙盒，物理引擎）等方面做了一个很好的AI Agent概述。如果“斯坦福小镇”这样的生成式Agent可以应用到《原神》或其他大型MMORPG游戏中，那无疑将带来令人难以预料的惊喜。但目前来看大规模部署Agent的成本和效率等关键难题还有待突破。论文链接：

：基于开源的 AI 软件工程师，可以理解人类的高级指令，并根据这些指令，分解成步骤，进行相关信息的研究，并编写代码实现目标。

：基于开源的 AI 软件工程师，可以理解人类的高级指令，并根据这些指令，分解成步骤，进行相关信息的研究，并编写代码实现目标。 Devika的系统架构由以下关键组件组成：用户界面：基于网络的聊天界面，用于与 Devika 交互、查看项目文件以及监控代理的状态。 Agent Core：编排AI规划、推理和执行过程的核心组件。它与各种子代理和模块通信以完成任务。大型语言模型：Devika 利用Claude、GPT-4和Ollama 的本地 LLM等最先进的语言模型进行自然语言理解、生成和推理。规划和推理引擎：负责将高层目标分解为可操作的步骤，并根据当前环境做出决策。研究模块：利用关键字提取和网页浏览功能来收集当前任务的相关信息。代码编写模块：根据计划、研究结果和用户需求生成代码。支持多种编程语言。浏览器交互模块：使 Devika 能够根据需要导航网站、提取信息并与 Web 元素交互。知识库：存储和检索项目特定信息、代码片段和学到的知识，以便高效访问。数据库：保存项目数据、代理状态和配置设置。

AI Agents大爆发：软件2.0雏形初现，OpenAI的下一步

AI Agents大爆发：软件2.0雏形初现，OpenAI的下一步本文编译自 Lilian Weng 的个人博客，Lilian 现在是 OpenAI 的 Head of Safety Systems，之前还领导过 OpenAI 的 Applied AI 团队。 AI Agent 被认为是 OpenAI 发力的下一个方向。OpenAI 的联合创始人 Andrej Karpathy 在近期的一次公开活动上提到“相比模型训练方法，OpenAI 内部目前更关注 Agent 领域的变化，每当有新的 AI Agents 论文出来的时候，内部都会很兴奋并且认真地讨论”，而在更早之前，Andrej还评价 AutoGPT 是 Prompt Engineering 下一阶段的探索方向。 Lilian Weng 的这篇 Blog 可以说是目前 AI Agent 领域优质论文的系统综述，她将 Agents 定义为 LLM、记忆（Memory）、任务规划（Planning Skills）以及工具使用（Tool Use）的集合，其中 LLM 是核心大脑，Memory、Planning Skills 以及 Tool Use 等则是 Agents 系统实现的三个关键组件，在文章中，她还对每个模块下实现路径进行了细致的梳理和说明。到今天，构建 AI Agent 的工具箱已经相对完善，但仍需要面对一些限制，例如上下文长度、长期规划和任务分解，以及 LLM 能力的稳定性等。从今年 3 月 AutoGPT 推出后，Generative Agent、GPT-Engineer、BabyAGI 项目的爆发将 LLM 的叙事代入了新的阶段，从“超级大脑”到真正有可能成为“全能助手”。Lillian 在自己的 Twitter 中也认为“This is probably just a new era”。 |

是一个开放源代码的项目，为您提供一整套完善的库，用以解构复杂任务并调度 toolkit 中的函数。

是一个开放源代码的项目，为您提供一整套完善的库，用以解构复杂任务并调度 toolkit 中的函数。该项目采用一种通用的 Agent 设计思路，将复杂任务处理的流程概括为：任务规划（Planner）→ 函数调度（Distributor）→ 函数执行（Worker）→ 结果整合（Solver）。特点：工具箱: 该项目包含一个名为real_world的模块，其中定义了toolkit，内置各种完全自定义的工具。模型易用性: agent和操作者的分离的思想，将模型部署为restful api，需要的时候才会去调用接入llm的api接口。记忆: 提供memory和flash mind两个模块，分别用于长期和短期记忆。（TO DO）

清华大学教授AMiner创始人唐杰的团队做了一个全新的Agent能力榜单，评估基础模型智能体。

清华大学教授AMiner创始人唐杰的团队做了一个全新的Agent能力榜单，评估基础模型智能体。这是一个多维演进基准测试，包括8个不同环境，用于评估大型语言模型（LLMs）在多回合开放式生成环境中的推理和决策能力，通过对25个语言模型的广泛测试，发现顶级商业语言模型在复杂环境中表现出色，且与开源模型之间存在显著差距。AgentBench的数据集，环境，和集成评估包已在 github上发布。 8种不同的环境任务，即操作系统（OS）、数据库（DB）、知识图谱（KG）、卡牌对战（DCG）、情景猜谜（LTP）、家居（Alfworld）、网络购物（WebShop）、和网页浏览（Mind2Web）。使用 AgentBench 对 25 个不同的语言模型进行了全面评估，揭示了领先的商业语言模型与开源模型之间的显着性能差距。对语言模型作为智能体的更广泛讨论的贡献，表明需要进行严格、系统的评估，并提供强大的开源工具来促进此类评估。 ||

ChatGPT、微软Bing、谷歌Bard为例，深入介绍了如何与AI协作。采用实用的方法，探讨了模型的工作原理，以及如何有效地

ChatGPT、微软Bing、谷歌Bard为例，深入介绍了如何与AI协作。采用实用的方法，探讨了模型的工作原理，以及如何有效地使用每种模型，并将自己的专业知识融入其中。Ethon和Lilach 还通过实例提示和指导，展示了如何利用人工智能使教学更轻松、更有效，以及学生如何利用人工智能提高学习效率。小宇宙直达： 3⃣ 与AI深度对话：如何轻松写出prompts Ethon 和Lilach 探讨了3个写Prompts的要点（角色、指令和步骤）；通过写文章为案例，说明了添加语境的重要价值，并提示如何增加限制条件来提升AI 输出质量。最重要的一点，两位专家给出了明确指出，你需要在对话中持续占据主导地位。小宇宙直达： 4⃣ 善用「类比」来学习新知如何利用人工智能让老师的教学更轻松、更有效，Ethon 和Lilach 提供了一套学生通过示例和类比来学习的方法，并展示了开发个性化的示例、解释和低分测试，并创建教学上合理的教学大纲。小宇宙直达： 5⃣ 翻转课堂：学生如何使用AI实现个性化学习？ Ethon 针对学习教学使用场景，提出了一系列实实在在的真知灼见：不要过分相信AI 检测工具，它具有欺骗性；要让学生不断批判性思维，自主发现对话式AI的优缺点。小宇宙直达：（待续更新中）后记：这些观点和新知对于AI 普及而言，价值巨大；无论其系统性、实时性和可操作性，都属于难得的精品内容。如之前强调，AI教育和AI应用是两件事，新世界需要更多Ethon 这样的有识之士的换位思考与清晰表达。对于无数还未接触或尚未展开人工智能探索的人们意义非凡，这是新的启蒙。秉持同样的教育民主化理念，火烈鸟圆桌进行了翻译、校对和解读工作，并在Shownotes中提供到了大量图文和案例说明，建议一并参考。如果你周围有朋友需要这样入门经典系列，也不妨分享给他们。 Enjoy～

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人