:支持使用多个agent来开发LLM应用的框架,这些agent可以相互对话以解决复杂任务#框架

None

相关推荐

封面图片

:AI应用框架,使LLM函数调用更加简便#框架

封面图片

轻量可扩展的LLM驱动智能Agent和ALM研究框架,提供了构建、测试和评估智能Agent所需的基本组件。#框架

封面图片

用于评估大型语言模型(LLM)Agent在多步多模态任务中的工具使能力的基准数据集,包含超过4000个多步多模态任务,这些任务涉

封面图片

人工智能被发现会使用潜在的危险"捷径"来解决复杂的识别任务

人工智能被发现会使用潜在的危险"捷径"来解决复杂的识别任务这项研究由约克大学人类和计算机视觉研究主席、约克大学人工智能与社会中心联合主任Elder和芝加哥洛约拉学院助理心理学教授、约克大学前VISTA博士后NicholasBaker进行,发现深度学习模型无法捕捉人类形状感知的配置性质。为了研究人脑和DCNN如何感知整体的、配置性的物体属性,该研究使用了被称为"Frankensteins"的视觉刺激方法。"Frankensteins可以被理解为被拆开并以错误的方式装回去的物体,"埃尔德说。"因此,它们具有所有正确的局部特征,但组件会出现在错误的地方。"研究人员发现,虽然Frankensteins会被人类的视觉系统判断出异样,但DCNN却不会,这显示了人工智能对配置物体属性的不敏感。"我们的结果解释了为什么深度人工智能模型在某些条件下会失败,并指出需要考虑物体识别以外的任务,以了解大脑的视觉处理,"Elder说。"这些深度模型在解决复杂的识别任务时倾向于走'捷径'。虽然这些捷径在许多情况下可能有效,但在我们目前与行业和政府伙伴合作的一些现实世界的人工智能应用中,它们可能是危险的,"埃尔德指出。其中一个应用是交通视频安全系统。"繁忙的交通场景中的物体--车辆、自行车和行人--相互阻挡,以杂乱无章的碎片形式出现在司机的眼中,"埃尔德解释说。"大脑需要对这些碎片进行正确分组,以识别物体的正确类别和位置。用于交通安全监测的人工智能系统如果只能单独感知这些碎片,将无法完成这一任务,可能会误解脆弱的道路使用者的风险。"根据研究人员的说法,旨在使网络更像大脑的训练和架构的修改并没有考虑配置处理,而且没有一个网络能够准确地预测逐个试验的人类物体判断。我们推测,为了与人类的可配置敏感性相匹配,必须对网络进行训练,以解决类别识别以外的更广泛的物体任务,"埃尔德指出。了解更多:https://linkinghub.elsevier.com/retrieve/pii/S2589004222011853...PC版:https://www.cnbeta.com.tw/articles/soft/1332369.htm手机版:https://m.cnbeta.com.tw/view/1332369.htm

封面图片

开源Agent框架,用于操作智能手机应用,具有学习能力,可以通过自主探索或观察人工演示来学习操作新的应用,并生成知识库以执行复杂

封面图片

用GPT-4训练机器人 英伟达最新Agent开源:任务越复杂越拿手

用GPT-4训练机器人英伟达最新Agent开源:任务越复杂越拿手尤其是转笔这个技能,要知道靠人类逐帧制作动画,也是非常困难的。最终,Eureka在超过80%的任务中都超越人类专家,让机器人平均性能提升到50%以上。这一研究吸引了数十万网友关注,有人表示:直接快进到它弹钢琴那天,直接为大众所用。英伟达科学家,也是此次共同作者之一JimFan评价到,它是超级人类奖励工程师。它可以辅助机器人工程师设计复杂任务。目前该项目完全开源。GPT-4生成奖励策略在机器人学习中,大模型擅长生成高级语义规划和中级操作,比如拾取和放置(VIMA、RT-1等),但在复杂任务控制方面有所欠缺。而Eureka的关键所在,就是通过上下文来实现了人类水平的奖励算法设计。简单来说,就是用GPT-4的零样本生成、代码编写以及上下文改进功能,对奖励执行策略进行优化,由此通过强化学习来进行复杂的技能。研究人员提出了一种混合梯度架构,外循环运行GPT-4来细化奖励函数(无梯度),而内循环运行强化学习来训练机器人控制器(基于梯度)。主要有三个关键组成部分:模拟器环境代码作为上下文启动初始“种子”奖励函数。GPU上的大规模并行强化学习,可以快速评估大量候选奖励。奖励反射rewardreflection,得益于GPT-4评估和修改能力,一步步迭代。首先,无需任何特定提示工程和奖励模版。使用原始IsaacGym(一种GPU加速的物理模拟器)环境代码作为上下文,生成初始奖励函数。这种无梯度的情境学习方式,可以根据各种形式的人类输入,生成性能更强、符合开发人员愿景的奖励函数。其次,Eureka在每个进化步骤中都会生成很多候选函数,然后利用强化学习训练来进行快速评估。以往这种过程需要几天甚至几周来完成,但由IsaacGym可将模拟时间提高1000倍,强化学习内循环能在几分钟完成。最后,依赖于奖励反射,Eureka还支持一种新形式的上下文RLHF。它能够将人类操作员的反馈融入自然语言中,以引导和调整奖励功能。最终,在29种不同的开源RL环境中,83%基准测试中Eureka都优于人类,并实现了52%改进。这些环境包括10种不同的机器人形态,比如四足机器人、四旋翼机器人、双足机器人、机械手等。让研究人员惊讶的是,尤其在处理复杂、高维电机控制的任务上,Eureka表现更好,且与人类奖励的相关性越低。甚至在少数情况下,AI的策略与人类的策略呈现负相关。这就有点像当年AlphaGo的下棋策略,人类看不懂学不会,但十分有效。英伟达出品这项研究由英伟达、宾夕法尼亚大学、加州理工学院、德州大学奥斯汀分校的研究人员来完成。可以看到的是,近半数研究人员都是华人。一作是YechengJasonMa,目前是宾大GRASP实验室的四年级博士生,研究方向是强化学习和机器人学习。英伟达科学家JimFan此次也是通讯作者之一。咳咳,不过至于网友提到的弹钢琴,JimFan自己曾分享过:只需几个简单按钮,AI就能实时即兴生成演奏音乐。不知道,未来会不会这样的呢?(不过,这研究已经是2018年的了)...PC版:https://www.cnbeta.com.tw/articles/soft/1391745.htm手机版:https://m.cnbeta.com.tw/view/1391745.htm

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人