Smart Agent 是一个开放源代码的项目,为您提供一整套完善的库,用以解构复杂任务并调度 toolkit 中的函数。

是一个开放源代码的项目,为您提供一整套完善的库,用以解构复杂任务并调度toolkit中的函数。该项目采用一种通用的Agent设计思路,将复杂任务处理的流程概括为:任务规划(Planner)→函数调度(Distributor)→函数执行(Worker)→结果整合(Solver)。特点:工具箱:该项目包含一个名为real_world的模块,其中定义了toolkit,内置各种完全自定义的工具。模型易用性:agent和操作者的分离的思想,将模型部署为restfulapi,需要的时候才会去调用接入llm的api接口。记忆:提供memory和flashmind两个模块,分别用于长期和短期记忆。(TODO)

相关推荐

封面图片

用GPT-4训练机器人 英伟达最新Agent开源:任务越复杂越拿手

用GPT-4训练机器人英伟达最新Agent开源:任务越复杂越拿手尤其是转笔这个技能,要知道靠人类逐帧制作动画,也是非常困难的。最终,Eureka在超过80%的任务中都超越人类专家,让机器人平均性能提升到50%以上。这一研究吸引了数十万网友关注,有人表示:直接快进到它弹钢琴那天,直接为大众所用。英伟达科学家,也是此次共同作者之一JimFan评价到,它是超级人类奖励工程师。它可以辅助机器人工程师设计复杂任务。目前该项目完全开源。GPT-4生成奖励策略在机器人学习中,大模型擅长生成高级语义规划和中级操作,比如拾取和放置(VIMA、RT-1等),但在复杂任务控制方面有所欠缺。而Eureka的关键所在,就是通过上下文来实现了人类水平的奖励算法设计。简单来说,就是用GPT-4的零样本生成、代码编写以及上下文改进功能,对奖励执行策略进行优化,由此通过强化学习来进行复杂的技能。研究人员提出了一种混合梯度架构,外循环运行GPT-4来细化奖励函数(无梯度),而内循环运行强化学习来训练机器人控制器(基于梯度)。主要有三个关键组成部分:模拟器环境代码作为上下文启动初始“种子”奖励函数。GPU上的大规模并行强化学习,可以快速评估大量候选奖励。奖励反射rewardreflection,得益于GPT-4评估和修改能力,一步步迭代。首先,无需任何特定提示工程和奖励模版。使用原始IsaacGym(一种GPU加速的物理模拟器)环境代码作为上下文,生成初始奖励函数。这种无梯度的情境学习方式,可以根据各种形式的人类输入,生成性能更强、符合开发人员愿景的奖励函数。其次,Eureka在每个进化步骤中都会生成很多候选函数,然后利用强化学习训练来进行快速评估。以往这种过程需要几天甚至几周来完成,但由IsaacGym可将模拟时间提高1000倍,强化学习内循环能在几分钟完成。最后,依赖于奖励反射,Eureka还支持一种新形式的上下文RLHF。它能够将人类操作员的反馈融入自然语言中,以引导和调整奖励功能。最终,在29种不同的开源RL环境中,83%基准测试中Eureka都优于人类,并实现了52%改进。这些环境包括10种不同的机器人形态,比如四足机器人、四旋翼机器人、双足机器人、机械手等。让研究人员惊讶的是,尤其在处理复杂、高维电机控制的任务上,Eureka表现更好,且与人类奖励的相关性越低。甚至在少数情况下,AI的策略与人类的策略呈现负相关。这就有点像当年AlphaGo的下棋策略,人类看不懂学不会,但十分有效。英伟达出品这项研究由英伟达、宾夕法尼亚大学、加州理工学院、德州大学奥斯汀分校的研究人员来完成。可以看到的是,近半数研究人员都是华人。一作是YechengJasonMa,目前是宾大GRASP实验室的四年级博士生,研究方向是强化学习和机器人学习。英伟达科学家JimFan此次也是通讯作者之一。咳咳,不过至于网友提到的弹钢琴,JimFan自己曾分享过:只需几个简单按钮,AI就能实时即兴生成演奏音乐。不知道,未来会不会这样的呢?(不过,这研究已经是2018年的了)...PC版:https://www.cnbeta.com.tw/articles/soft/1391745.htm手机版:https://m.cnbeta.com.tw/view/1391745.htm

封面图片

对 agent 的一个暴论:现有 (multi) agent workflow 的模式没有太大价值。Agent 今年(在以吴恩达

对agent的一个暴论:现有(multi)agentworkflow的模式没有太大价值。Agent今年(在以吴恩达老师为首的各类大佬的吹捧下)热度很高,但现有的这些所谓的(multi)agentworkflow,本质上是把一个大任务拆分成很多个子任务,每个子任务都有明确的input和output,自己定义一些变量和接口,把这些子任务串起来。这种方式很像是早期的自动驾驶,把感知和规控分开解,或者是上一代的语音助手,把语音转文字、LLM、语音合成这些工作流串起来。终极的解决方案应该不是这个样子的。现有的(multi)agentworkflow,速度慢先不说,最大的问题还是在接口的地方把信息降维了。这些input/output的接口和变量,本质上都是把信息降维到人能理解的维度,这是以高维信息的损失为代价的。每多一层workflow,损失的信息就多了一次。面对简单问题时,(multi)agentworkflow或许是可行的,但它注定无法解决复杂问题。就好比Waymo用感知+规控的架构,搭配高精地图,能够在凤凰城和三藩市勉强把本地L4跑通,但很难scale成一个通用的解法。只有Tesla端到端的方案才是自动驾驶的未来。因此,现有的(multi)agentworkflow方式注定只是一个中间状态,类似自动驾驶中感知+规控+高精地图的拼凑。而最终想要解决复杂问题,需要靠基础模型的进化。当模型能力足够强之后,应该是可以端到端的解决问题。你可以在prompt里提示它去使用某些工具,或者采用某些步骤,但应该不需要人为去把workflow拆出来。Agent的概念依旧重要,但应该回归它更加native的定义,即每一个Agent应该是独立的智能体,拥有自己的memory,planning,tooluse等能力,能够端到端地解决问题,而不是需要人类按照自己的理解一口口地把饭喂到嘴里。一个Agent就应该是一辆独立的L5Autopilot的汽车,而不是一堆弱智L2Workflow凑出来的所谓multiagents辅助驾驶杂牌军团。这听起来就很不优雅。

封面图片

试着从4月17号最新发布的这篇 agent 综述里,提炼了 6 个让 agent 更智能的方法,以及 2种 agent 架构的适

试着从4月17号最新发布的这篇agent综述里,提炼了6个让agent更智能的方法,以及2种agent架构的适用场景。论文链接是https://arxiv.org/pdf/2404.11584,强烈建议每一位对agent感兴趣的同好,都去精读几遍。言归正传,下面是我的总结:一、如何让agent更智能1、明确定义的系统提示,指导智能体的行为和目标例子:ReAct方法在ReAct方法中,智能体首先对给定任务进行思考,然后根据这些思考执行动作。这个过程可能会重复进行,直到任务完成。这种方法中的系统提示非常明确,指导智能体首先进行思考,然后行动,这样的循环确保智能体在执行任务时有明确的行为和目标指导。2、明确的领导和任务分工机制例子:EmbodiedLLMAgentsLearntoCooperateinOrganizedTeams在这个研究中,团队中的领导智能体对整个团队的效率有显著影响。领导智能体负责指导和分配任务,使得其他智能体可以更专注于执行具体的任务。这种明确的领导和任务分工机制使得团队能够更快地完成任务,减少了无效的沟通和混乱。3、专门的推理/规划、执行和评估阶段例子:AgentVerse方法AgentVerse方法中包含了明确的任务执行阶段:招募、协作决策、独立行动执行和评估。这些阶段被严格定义,每个阶段完成后,智能体团队会根据任务进展进行重新组织,确保每个阶段的智能体都最适合当前的工作需求。4、动态调整的团队结构,根据需要添加或移除智能体例子:DyLAN方法DyLAN框架通过动态的智能体结构来处理复杂任务,如逻辑推理和代码生成。系统会评估每个智能体在上一轮工作中的贡献,并只将表现最好的智能体保留在下一轮执行中。这种动态调整的团队结构使得智能体团队始终保持最高效率。5、来自人类或其他智能体的反馈机制例子:Reflexion方法在Reflexion方法中,智能体在执行任务的过程中会接收到来自一个语言模型评估器的反馈。这种反馈机制使得智能体能够根据反馈调整自己的行为和策略,从而提高任务完成的成功率和减少错误。例如,如果智能体在执行任务时偏离了正确的轨道,评估器可以指出这一点,并建议智能体如何调整策略以更好地达成目标。这种反馈循环不仅增强了智能体的性能,也提高了其与人类用户的互动质量和信任度。

封面图片

AIlice:一个致力于利用开源模型创建自己的JARVIS 的项目。

:一个致力于利用开源模型创建自己的JARVIS的项目。AIlice通过构建一个以LLM作为核心处理器的“文本计算机”来实现这一目标(项目代码仅三千多行)。目前,AIlice能够熟练的处理一系列任务,包括主题研究、编码、系统管理、文献综述以及超出这些基本能力的复杂混合任务。AIlice在使用GPT-4的日常任务中达到了近乎完美的性能,并且正在利用最新的开源模型向实际应用迈进。基本特性1.自然且高度容错的IACT(InteractiveAgentsCallingTree)架构。2.以最灵活的方式解析LLM输出,支持更多种多样的函数调用机制.3.自我构建并动态加载环境交互模块,为功能扩展提供无限潜力。4.专为开源模型设计,但可以无缝支持商业模型,如GPT-4。5.支持对特定主题进行深入调查。6.支持文献阅读。7.自动化编程和脚本执行。它是一个全能的coder和系统管理工具,掌握所有系统命令——你可以把它看作一个人工智能操作系统。8.支持多模态模型。9.支持语音交互。10.用户以两种方式灵活的参与对话:以agent的一员,或者在任务执行中直接介入。

封面图片

Apple 计划在云端使用 M2 Ultra 芯片以处理更复杂的人工智能查询

苹果计划通过将复杂查询任务转移到运行在数据中心的M2Ultra芯片上,开始其生成式人工智能的探索,然后再转移到更先进的M4芯片上。,苹果计划将其M2Ultra芯片部署在云服务器上,以处理更复杂的人工智能查询,而简单任务则在设备上处理。《》此前报道称,,以确保安全和隐私,该项目被称为ACDC项目,即数据中心的苹果芯片。但该公司现在认为其现有的处理器已具备足够的安全和隐私功能。这些芯片将被部署到苹果的数据中心,并最终部署到第三方运行的服务器上。苹果公司在美国各地运行自己的服务器,并一直在爱荷华州沃基建立一个新的中心,该中心于2017年首次官宣去年12月,苹果的机器学习研究团队发布了MLX,这是一个机器学习框架,可以让AI模型在苹果硅片上高效运行。公司还发布了其他关于AI模型的研究,这些研究暗示了AI在其设备上的可能面貌以及现有产品,如Siri,可能如何升级。苹果在宣布新的M4芯片时,特别强调了AI性能,称其新的神经引擎是“一个异常强大的AI芯片”。标签:#Apple#AI频道:@GodlyNews1投稿:@Godlynewsbot

封面图片

AI Agents大爆发:软件2.0雏形初现,OpenAI的下一步

AIAgents大爆发:软件2.0雏形初现,OpenAI的下一步本文编译自LilianWeng的个人博客,Lilian现在是OpenAI的HeadofSafetySystems,之前还领导过OpenAI的AppliedAI团队。AIAgent被认为是OpenAI发力的下一个方向。OpenAI的联合创始人AndrejKarpathy在近期的一次公开活动上提到“相比模型训练方法,OpenAI内部目前更关注Agent领域的变化,每当有新的AIAgents论文出来的时候,内部都会很兴奋并且认真地讨论”,而在更早之前,Andrej还评价AutoGPT是PromptEngineering下一阶段的探索方向。LilianWeng的这篇Blog可以说是目前AIAgent领域优质论文的系统综述,她将Agents定义为LLM、记忆(Memory)、任务规划(PlanningSkills)以及工具使用(ToolUse)的集合,其中LLM是核心大脑,Memory、PlanningSkills以及ToolUse等则是Agents系统实现的三个关键组件,在文章中,她还对每个模块下实现路径进行了细致的梳理和说明。到今天,构建AIAgent的工具箱已经相对完善,但仍需要面对一些限制,例如上下文长度、长期规划和任务分解,以及LLM能力的稳定性等。从今年3月AutoGPT推出后,GenerativeAgent、GPT-Engineer、BabyAGI项目的爆发将LLM的叙事代入了新的阶段,从“超级大脑”到真正有可能成为“全能助手”。Lillian在自己的Twitter中也认为“Thisisprobablyjustanewera”。

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人