试着从4月17号最新发布的这篇 agent 综述里,提炼了 6 个让 agent 更智能的方法,以及 2种 agent 架构的适

试着从4月17号最新发布的这篇 agent 综述里,提炼了 6 个让 agent 更智能的方法,以及 2种 agent 架构的适用场景。 论文链接是 ,强烈建议每一位对 agent 感兴趣的同好,都去精读几遍。言归正传,下面是我的总结: 一、如何让 agent 更智能 1、明确定义的系统提示,指导智能体的行为和目标 例子:ReAct 方法 在 ReAct 方法中,智能体首先对给定任务进行思考,然后根据这些思考执行动作。这个过程可能会重复进行,直到任务完成。这种方法中的系统提示非常明确,指导智能体首先进行思考,然后行动,这样的循环确保智能体在执行任务时有明确的行为和目标指导。 2、明确的领导和任务分工机制 例子:Embodied LLM Agents Learn to Cooperate in Organized Teams 在这个研究中,团队中的领导智能体对整个团队的效率有显著影响。领导智能体负责指导和分配任务,使得其他智能体可以更专注于执行具体的任务。这种明确的领导和任务分工机制使得团队能够更快地完成任务,减少了无效的沟通和混乱。 3、专门的推理/规划、执行和评估阶段 例子:AgentVerse 方法 AgentVerse 方法中包含了明确的任务执行阶段:招募、协作决策、独立行动执行和评估。这些阶段被严格定义,每个阶段完成后,智能体团队会根据任务进展进行重新组织,确保每个阶段的智能体都最适合当前的工作需求。 4、动态调整的团队结构,根据需要添加或移除智能体 例子:DyLAN 方法 DyLAN 框架通过动态的智能体结构来处理复杂任务,如逻辑推理和代码生成。系统会评估每个智能体在上一轮工作中的贡献,并只将表现最好的智能体保留在下一轮执行中。这种动态调整的团队结构使得智能体团队始终保持最高效率。 5、来自人类或其他智能体的反馈机制 例子:Reflexion 方法 在 Reflexion 方法中,智能体在执行任务的过程中会接收到来自一个语言模型评估器的反馈。这种反馈机制使得智能体能够根据反馈调整自己的行为和策略,从而提高任务完成的成功率和减少错误。例如,如果智能体在执行任务时偏离了正确的轨道,评估器可以指出这一点,并建议智能体如何调整策略以更好地达成目标。这种反馈循环不仅增强了智能体的性能,也提高了其与人类用户的互动质量和信任度。

相关推荐

封面图片

6、智能的消息过滤,减少无关信息干扰

6、智能的消息过滤,减少无关信息干扰 例子:MetaGPT 方法 MetaGPT 实现了一个“发布-订阅”机制,允许所有智能体在一个共享的信息平台上发布信息,但每个智能体只阅读与自己任务相关的信息。这种智能的消息过滤机制显著提高了团队执行目标的效率,减少了无关信息的干扰。 二、多智能体一定比单智能体高贵吗? 并不是,单智能体和多智能体模式,都显示出解决「需要高级问题解决技能」的复杂多步骤问题的能力。 1、单智能体模式 通常最适合于工具列表有限且流程明确的任务。单智能体架构相对容易实现,因为只需定义一个智能体及其可用工具。 此外,单智能体不会面临来自其他智能体的糟糕反馈或令人分心的无关闲聊等限制。 然而,如果单智能体缺乏强大的推理和自我改进能力,它们可能会陷入无休止的执行循环,无法真正朝着目标前进。 2、多智能体架构 往往适用于需要多个角色反馈以完成任务的情况。 例如,在文档生成过程中,一个智能体可以对文档某个部分提出反馈,供另一个智能体参考和改进。 多智能体系统还有助于跨不同任务或工作流实现并行化。Wang等人的研究发现,在没有提供示例的情况下,多智能体模式的表现优于单智能体。 不过,多智能体系统通常更加复杂,需要良好的对话管理和明确的领导才能发挥最佳效能。

封面图片

清华大学教授AMiner创始人唐杰的团队做了一个全新的Agent能力榜单,评估基础模型智能体。

清华大学教授AMiner创始人唐杰的团队做了一个全新的Agent能力榜单,评估基础模型智能体。 这是一个多维演进基准测试,包括8个不同环境,用于评估大型语言模型(LLMs)在多回合开放式生成环境中的推理和决策能力,通过对25个语言模型的广泛测试,发现顶级商业语言模型在复杂环境中表现出色,且与开源模型之间存在显著差距。AgentBench的数据集,环境,和集成评估包已在 github上发布。 8种不同的环境任务,即操作系统(OS)、数据库(DB)、知识图谱(KG)、卡牌对战(DCG)、情景猜谜(LTP)、家居(Alfworld)、网络购物(WebShop)、 和网页浏览(Mind2Web)。 使用 AgentBench 对 25 个不同的语言模型进行了全面评估,揭示了领先的商业语言模型与开源模型之间的显着性能差距。对语言模型作为智能体的更广泛讨论的贡献,表明需要进行严格、系统的评估,并提供强大的开源工具来促进此类评估。 ||

封面图片

对 agent 的一个暴论:现有 (multi) agent workflow 的模式没有太大价值。Agent 今年(在以吴恩达

对 agent 的一个暴论:现有 (multi) agent workflow 的模式没有太大价值。Agent 今年(在以吴恩达老师为首的各类大佬的吹捧下)热度很高,但现有的这些所谓的 (multi) agent workflow,本质上是把一个大任务拆分成很多个子任务,每个子任务都有明确的 input 和 output,自己定义一些变量和接口,把这些子任务串起来。这种方式很像是早期的自动驾驶,把感知和规控分开解,或者是上一代的语音助手,把语音转文字、LLM、语音合成这些工作流串起来。 终极的解决方案应该不是这个样子的。现有的 (multi) agent workflow,速度慢先不说,最大的问题还是在接口的地方把信息降维了。这些 input / output 的接口和变量,本质上都是把信息降维到人能理解的维度,这是以高维信息的损失为代价的。每多一层 workflow,损失的信息就多了一次。面对简单问题时, (multi) agent workflow 或许是可行的,但它注定无法解决复杂问题。就好比Waymo 用感知+规控的架构,搭配高精地图,能够在凤凰城和三藩市勉强把本地 L4 跑通,但很难 scale 成一个通用的解法。只有 Tesla 端到端的方案才是自动驾驶的未来。 因此,现有的 (multi) agent workflow方式注定只是一个中间状态,类似自动驾驶中感知+规控+高精地图的拼凑。而最终想要解决复杂问题,需要靠基础模型的进化。当模型能力足够强之后,应该是可以端到端的解决问题。你可以在 prompt 里提示它去使用某些工具,或者采用某些步骤,但应该不需要人为去把 workflow 拆出来。 Agent 的概念依旧重要,但应该回归它更加 native 的定义,即每一个 Agent 应该是独立的智能体,拥有自己的 memory, planning, tool use 等能力,能够端到端地解决问题,而不是需要人类按照自己的理解一口口地把饭喂到嘴里。一个 Agent 就应该是一辆独立的L5 Autopilot 的汽车,而不是一堆弱智 L2 Workflow 凑出来的所谓 multi agents 辅助驾驶杂牌军团。这听起来就很不优雅。

封面图片

开源Agent框架,用于操作智能手机应用,具有学习能力,可以通过自主探索或观察人工演示来学习操作新的应用,并生成知识库以执行复杂

开源Agent框架,用于操作智能手机应用,具有学习能力,可以通过自主探索或观察人工演示来学习操作新的应用,并生成知识库以执行复杂任务。 该框架通过简化的动作空间模拟人类交互,无需后端访问,适用于各种应用。 | #框架

封面图片

是一款更强大的自主智能体,具备完全自治的能力,也就是自主完成目标理解、规划、执行和反馈迭代多项任务。

是一款更强大的自主智能体,具备完全自治的能力,也就是自主完成目标理解、规划、执行和反馈迭代多项任务。 AutoAgents.ai自称是「行业内第一个在真实业务场景里跑通可用的自主智能体产品」,可以做到像真人一样,全天无休地策划、运营一个社交媒体账号,为客户节省大量成本。 5、央国企比想象中更拥抱AI agent。 不止一家「AI agent 平台」创业公司,都在 PR 稿中提到了电网方面的国央企客户。 所以的 PR 稿,来自郎瀚威 Will 整理的Gpts国产平台表单: 下图由kimi chat 协助整理:#AI工作流

封面图片

米哈游最近与复旦NLP实验室合著了一篇86页的AI Agent论文,该论文从认知核心(推理,记忆,规划)、感知(文本,视觉,听觉

米哈游最近与复旦NLP实验室合著了一篇86页的AI Agent论文,该论文从认知核心(推理,记忆,规划)、感知(文本,视觉,听觉)、行动(文本,工具使用,具身)、参与者(单智能体,多智能体,真人与智能体)和环境(虚拟沙盒,物理引擎)等方面做了一个很好的AI Agent概述。 如果“斯坦福小镇”这样的生成式Agent可以应用到《原神》或其他大型MMORPG游戏中,那无疑将带来令人难以预料的惊喜。但目前来看大规模部署Agent的成本和效率等关键难题还有待突破。 论文链接:

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人