米哈游最近与复旦NLP实验室合著了一篇86页的AI Agent论文,该论文从认知核心(推理,记忆,规划)、感知(文本,视觉,听觉

米哈游最近与复旦NLP实验室合著了一篇86页的AI Agent论文,该论文从认知核心(推理,记忆,规划)、感知(文本,视觉,听觉)、行动(文本,工具使用,具身)、参与者(单智能体,多智能体,真人与智能体)和环境(虚拟沙盒,物理引擎)等方面做了一个很好的AI Agent概述。 如果“斯坦福小镇”这样的生成式Agent可以应用到《原神》或其他大型MMORPG游戏中,那无疑将带来令人难以预料的惊喜。但目前来看大规模部署Agent的成本和效率等关键难题还有待突破。 论文链接:

相关推荐

封面图片

微软上周的一篇论文,深入探讨了AI智能体的最新实现进展。

微软上周的一篇论文,深入探讨了AI智能体的最新实现进展。 对 Agents 有兴可以看看,一篇论文了解 Agents 。 详细介绍了 Agents 的主要分类、定义以及设计 Agents 系统的时候需要注意的问题。 Agents 的分类: 单一Agent架构:这些架构由一个语言模型驱动,并将自行执行所有推理、规划和工具执行。 多Agent架构:这些架构涉及两个或更多代理,每个代理可以利用相同的语言模型或一组不同的语言模型。这些代理可能可以访问相同的工具或不同的工具。每个代理通常有自己的人物形象。 多Agent架构又可分为垂直架构和水平架构: 垂直架构:在这种结构中,一个代理人充当领导者,其他代理人直接向他们汇报。 水平架构:在这种结构中,所有代理都被视为平等的一部分,并参与关于任务的一组讨论。 有效Agents的两个关键考虑因素: 推理和规划: AI代理要有效地与复杂环境互动、做出自主决策并在各种任务中协助人类,它们需要强大的推理能力。 规划,需要强大的推理能力,通常分为五种主要方法:任务分解、多计划选择、外部模块辅助规划、反思和完善以及记忆增强规划。 有效工具调用: 代理抽象相对于提示基础语言模型的一个关键优势是代理能够通过调用多个工具来解决复杂问题。 这些工具使代理能够与外部数据源交互,从现有 API 发送或检索信息等。需要大量工具调用的问题通常与需要复杂推理的问题相辅相成。 论文地址:

封面图片

由 Open AI 的 ChatGPT API 和 GPT-4o 提供支持的 AI 聊天机器人,AI 文本生成器,人工智能论文作

由 Open AI 的 ChatGPT API 和 GPT-4o 提供支持的 AI 聊天机器人,AI 文本生成器,人工智能论文作家,AI 图像生成器 修改信息: v8 Pro全部功能解锁 GPT-4解锁 GPT-4(o)解锁 #Chatbot #聊天机器人#AI 频道:@ZYPD123 群组:@mumu_software

封面图片

3月23日,360智脑宣布正式内测500万字长文本处理功能,该功能即将入驻360AI浏览器,同时360AI浏览器APP也即将上线

3月23日,360智脑宣布正式内测500万字长文本处理功能,该功能即将入驻360AI浏览器,同时360AI浏览器APP也即将上线。此前,月之暗面也宣布Kimi智能助手启动200万字内测,文心一言计划在下个月将字数上限提高至200万-500万字。 2月29日,360AI浏览器已向用户免费开放100万字长文本阅读功能,可一分钟读完《三体》,并就文本外的“超纲”问题进行问答和延展学习,此次长文本处理能力进一步提升,将大幅提升用户使用体验。此外360AI浏览器也支持对视频、音频、网页和中英文论文等常用文档类型的处理,可以帮助用户自动总结要点、生成思维导图等。 via 匿名 标签: #AI #360浏览器 频道: @GodlyNews1 投稿: @GodlyNewsBot

封面图片

论文写作小工具写作猫是新一代交互式中英文写作辅助平台,集智能文本纠错、改写润色、自动续写、智能配图为一体。

论文写作小工具 写作猫是新一代交互式中英文写作辅助平台,集智能文本纠错、改写润色、自动续写、智能配图为一体。 参考亿下一键生成大量论文参考段落,有体验次数限制 OA.mg学术论文的搜索引擎。无论寻找特定的论文,还是来自某个领域的研究,还是作者的所有作品,都可以找到。 火龙果写作: 28款毕业论文查重降重网站软件,重复率45%降到5%并不难! 免费查重网站包括: 万方免费查重(应届生免费一次): chsi.wanfangtech.net PaperDay(标准版永久免费,旗舰版每日限免): www.paperday.cn 论文狗(每日免费一次): www.lunwengo.net PaperYY(每日免费一次,11点多免费两次): www.paperyy.com FreeCheck(每日免费一次): www.freecheck.cn WritePass(每日1000个免费名额): www.writepass.cn 超星大雅(免费看相似度): dsa.dayainfo.com 百度学术(免费使用PaperTime一次): xueshu.baidu.com/usercenter/papercheck 免费论文下载网站: 广西壮族自治区图书馆: www.gxlib.org.cn 国家哲学社会科学文献中心: www.ncpssd.org 全国图书馆参考联盟: www.ucdrs.superlib.net OALib: www.oalib.com (俺也要大四毕业了,毕业党可以留意一下哦)

封面图片

下一代Windows系统曝光:基于GPT-4V Agent跨应用调度 代号UFO

下一代Windows系统曝光:基于GPT-4V Agent跨应用调度 代号UFO 还有像利用多个来源文本,比如word文档、图像文本内容,撰写电子邮件。网友表示:这才是Windows级别应有的创新能力第一个Windows Agent来了这样一个智能体叫做UFO,全名“UI-Focused”,是一个专为Windows OS(操作系统)交互设计、面向用户界面(UI)的智能体框架,可以在单个或者多个应用程序中操作,由MSRA、微软AI与应用研究团队等共同打造。用户就可以通过自然语言指令,来操作App的用户界面。据介绍,UFO是第一个专为Windows OS环境中的任务完成量身定制的UI Agent。就拿删除PPT上的所有注释为例。传统方式需要一页一页手动删除注释。如果PPT巨长无比,这个过程就会又久又无聊,让人瞬间暴躁。但UFO得到指令后,简化了整个过程。它先是提议用“删除所有演示笔记”功能,这个功能因为按钮位置藏得很深,经常被用户忽视。而后,UFO导航到“File”选项,对后台视图进行访问;然后,再平滑地切换到“info”菜单,单击“检查问题”按钮,并选择“检查文档”,开始检查文档中所有包含的注释。紧接着,UFO识别到菜单地步的“删除所有演示笔记”,向下滚动定位到其位置,启动单击功能。考虑到误删的可能性,UFO这里有一道保护功能,需要用户再次确定是否真的要删除所有注释。用户一旦确认,所有笔记就“”的一下都没有了~如PowerPoint这般,文章中对其它几个场景进行了图文并茂的展示。比如读一篇PDF:设计PPT格式:下载Docker拓展:发条推文:搜索总结:读篇paper:以及怎么利用UFO在Word文档里提取文本、描述图像、撰写然后发送电子邮件等。研究团队在9个常用的Windows应用程序上对UFO进行了测试,包括Outlook、Photos、PPT、Word等,涵盖了Windows用户的高频使用场景,能够测试工作、交流、编码、阅读、网页浏览等目的。对于每个应用程序,团队设计了5个不同的请求,共45个;另外还设计了5个设计跨多个交互应用程序的请求。也就是说,共产生了50个请求,每个应用程序至少有一个请求链接到另一个后续请求,提供全面评估UFO的互动模式。在评估指标方面,则从成功度、步骤、完成率和保障率这几个角度来评估UFO。为了全面评估UFO的性能,团队开发了名为WindowsBench的测试基准。考虑到没有现成的Windows Agent,团队选择GPT-3.5和GPT-4作为基座模型,并且指示它们提供一步一步的指导来完成用户请求。值得注意的是,UFO在WindowsBench上成功率达到了86%,成倍超过了GPT-4因此UFO可以被定位为一个高效的Agent。而UFO的完成率也是最好的,这表明它有能力采取更精确的动作;此外,UFO完成任务的步骤也是最少的,安全度也是最高的。最后,9个场景从4个角度在WindowsBench的详细得分如下:三个模块组成既然如此,这样一个操作系统级别的Agent,究竟是如何实现的呢?首先,它理解用户的自然语言要求,然后将其分解为一系列子任务。然后观察用户界面,并对其控制元素进行操作,以实现总体目标。既然如此,又是如何实现的呢?架构上看,UFO是个双Agent框架,主要有三个模块:应用智能体(AppAgent),选择一个应用程序满足用户请求。行动智能体(ActAgent),负责在所选应用中反复执行任务。交互控制,无需人工干预,全自动执行。在收到用户请求后,AppAgent会对需求进行分析。除此之外,还有这些信息作为输入:桌面截图、App信息、记忆以及示例。其中,UFO为AppAgent提供了完整的桌面截图和可用应用程序列表以供参考。然后从当前激活的应用程序中选择一个合适的应用程序,并制定一个全局实现计划,将其传递给ActAgent。一旦找到合适的应用程序,App就会出现在桌面上。随后ActAgent启动操作。在每个操作选择之前,UFO都会捕获当前应用程序用户界面窗口的屏幕截图,并标注所有可用控件。此外,UFO还记录了每个控件的相关信息,供 ActAgent观察。ActAgent的任务是选择要操作的控件,然后通过控件交互模块选择要在所选控件上执行的特定操作。这一决定是基于 ActAgent 的观察结果、先前计划和操作记忆做出的。这个递归过程一直持续到用户请求在所选应用程序中成功完成为止。至此,用户请求的一个阶段结束。如果需要跨越多个应用程序,那么在ActAgent 完成当前任务之后,ActAgent 将把任务委托给 AppAgent,以便切换到不同的应用程序,从而启动请求的第二阶段。用户可以选择提出新的请求,促使 UFO 通过重复上述过程来处理新任务。研究团队依据日常鼠标操作,还开发了自定义操作,比如单击、选择文本、滚动等,以此来完成对于控件的操作。主要有这些控制类型。微软全球资深副总裁、MSRA副院长领衔最后介绍一下UFO的研究团队,其中大多数都为华人。通讯作者Chaoyun Zhang,是微软DKI(Data、Knowledge、Intelligence,数据/知识/情报)*小组的高级研究员。他于2020年,在爱丁堡大学获得硕士和博士学位,研究兴趣包括时间序列建模、时空数据挖掘、因果推理以及云服务和 AIOps的可解释机器学习。Chaoyun Zhang还是华中科技大学校友,出国前在华中科技大学电子信息与通信学院取得学士学位。作者Liqun Li,现为微软DKI组首席研究员。他先毕业于清华大学计算机科学与技术系,取得学士学位;而后又在2012年获得中国科学院软件研究所博士学位。期间,Liqun Li曾作为访问学者前往密歇根州立大学。作者Saravan Rajmohan,Miceosoft 365的AI及应用研究的合作伙伴总监。他领导应用研究团队与Microsoft的各个研究小组进行深入协作,将算法研究与AI/ML技术和硬件创新相结合作者张冬梅,MSRA(微软亚洲研究院)常务副院长,微软杰出首席科学家。她从2004年起加入MSRA,从事和领导DKI领域的研究工作,近几年,团队将研究扩大到商业智能领域。作者张祺,微软全球资深副总裁。此前,张祺曾任微软(亚洲)互联网工程院常务副院长,兼任微软移动联新互联网服务有限公司董事长,负责微软互联网业务及人工智能平台在亚洲的团队。同时,他也是微软中国首位“全球杰出工程师”。最后,简单介绍一下多位作者的工作单位:MSRA的DKI组。DKI是Data、Knowledge、Intelligence的简写。该小组致力于AI、数据分析、数据交互、数据可视化的研究,探索全新的数据分析、展示、交互技术,让数据和数据中的发现故事被高效地理解、广泛地传播。团队与微软产品如Excel,PowerPoint等深度合作,常年在各个领域的顶会和期刊上发表论文。 ... PC版: 手机版:

封面图片

AI 新知:为什么基础代理将会是下一个革命性技术?

AI 新知:为什么基础代理将会是下一个革命性技术? 来自英伟达高级研究员 & AI Agents负责人Jim Fan 近期释放的TED 演讲,《The next grand challenge for AI》提出了「基础代理」将在虚拟世界和物理世界中无缝运行。他解释了这项技术将如何从根本上改变我们的生活渗透到从视频游戏、元宇宙到无人机和仿人机器人的方方面面并探讨了这一模型如何掌握跨越这些不同现实的技能。 他提出「基础代理」(Foundation Agent)的秘诀:一个单一的模型,可以学习如何在不同的世界中行动。 (如果你之前不太熟悉AI agents相关基础知识, 可以结合文本内容补充相关知识点,Enjoy) 「基础代理」中的智能体, Voyager 是什么?? - 它是一个在 Minecraft开放世界中无限学习的智能体。Voyager 可以自己写代码、自我迭代、不断完善技能库中,实现无限学习(Longlife learning)的探索过程。 - 这里核心只有一个,就是无限迭代。 它不断扩充自己的技能图书馆, 无论是在游戏中制作工具,并升级科技树(例如,从Wooden Tool 到Iron Tool), 全部是自主迭代、自主验证的。 它不仅是自动化,它是通过一套机制自主学习 [1]。 - 它建立在GPT-4之上,并解锁了一个新的范式:「训练」在这个语境下是执行代码;「训练模型」是Voyager迭代组成的技能代码库,而不是浮点矩阵。 - Voyager 作为一个超级玩家,在《我的世界》中,它获得了3.3倍的独特物品,旅行了2.3倍的距离,解锁关键技术树里程碑的速度比之前的方法快15.3倍。它还开源的。 [1] 为什么这个「基础代理」具有非凡意义? - LLM 适用于大量文本,而基础代理可以跨越很多很多现实。 基础代理 已经在虚拟世界被验证强大的学习自主性。 - 其次,Jim Fan 认为它具有跨越Reality的拓展性。 开放游戏世界Minecraft 只是作为一个模拟现实(simulated realities)和实验基地,他们还在其他仿真环境进行训练和探索得到惊人进展。[2] - 如果它能够掌握 10,000 种不同的模拟现实,那么它就能很好地推广到我们的物理世界,而物理世界只是第 10,001 个现实。 - 换句话说,它正在加速应用于物理世界,特别是机器人技术。 参考Jim Fan的PPT 。 [3] Hans 注释: [1] 这套自主学习和迭代的机制,有三个核心组件: a)结合游戏反馈、执行错误、自我验证来完善程序的迭代提示机制;(让 GPT-4 写代码 ) b)用于存储和检索复杂行为的技能代码库;(任务的完善和迭代,成为了技能) c)最大化探索的自动课程。Hans 在去年相关论文讨论的《当GPT-4 遇上开放世界》中,有更详细的解读。 [2] 英伟达 Isaac Gym 是一个功能强大的端到端 GPU 加速仿真环境,用于强化学习,可用于训练机器人和模型。它是英伟达 Omniverse 平台的一部分,为机器人和计算机视觉算法提供基于物理的高保真模拟。 [3] TED 视频中Jim Fan的PPT : Invalid media:

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人