是一个开放源代码的项目，为您提供一整套完善的库，用以解构复杂任务并调度 toolkit 中的函数。

是一个开放源代码的项目，为您提供一整套完善的库，用以解构复杂任务并调度 toolkit 中的函数。该项目采用一种通用的 Agent 设计思路，将复杂任务处理的流程概括为：任务规划（Planner）→ 函数调度（Distributor）→ 函数执行（Worker）→ 结果整合（Solver）。特点：工具箱: 该项目包含一个名为real_world的模块，其中定义了toolkit，内置各种完全自定义的工具。模型易用性: agent和操作者的分离的思想，将模型部署为restful api，需要的时候才会去调用接入llm的api接口。记忆: 提供memory和flash mind两个模块，分别用于长期和短期记忆。（TO DO）

在Telegram中查看

相关推荐

：基于开源的 AI 软件工程师，可以理解人类的高级指令，并根据这些指令，分解成步骤，进行相关信息的研究，并编写代码实现目标。

：基于开源的 AI 软件工程师，可以理解人类的高级指令，并根据这些指令，分解成步骤，进行相关信息的研究，并编写代码实现目标。 Devika的系统架构由以下关键组件组成：用户界面：基于网络的聊天界面，用于与 Devika 交互、查看项目文件以及监控代理的状态。 Agent Core：编排AI规划、推理和执行过程的核心组件。它与各种子代理和模块通信以完成任务。大型语言模型：Devika 利用Claude、GPT-4和Ollama 的本地 LLM等最先进的语言模型进行自然语言理解、生成和推理。规划和推理引擎：负责将高层目标分解为可操作的步骤，并根据当前环境做出决策。研究模块：利用关键字提取和网页浏览功能来收集当前任务的相关信息。代码编写模块：根据计划、研究结果和用户需求生成代码。支持多种编程语言。浏览器交互模块：使 Devika 能够根据需要导航网站、提取信息并与 Web 元素交互。知识库：存储和检索项目特定信息、代码片段和学到的知识，以便高效访问。数据库：保存项目数据、代理状态和配置设置。

微软上周的一篇论文，深入探讨了AI智能体的最新实现进展。

微软上周的一篇论文，深入探讨了AI智能体的最新实现进展。对 Agents 有兴可以看看，一篇论文了解 Agents 。详细介绍了 Agents 的主要分类、定义以及设计 Agents 系统的时候需要注意的问题。 Agents 的分类：单一Agent架构：这些架构由一个语言模型驱动，并将自行执行所有推理、规划和工具执行。多Agent架构：这些架构涉及两个或更多代理，每个代理可以利用相同的语言模型或一组不同的语言模型。这些代理可能可以访问相同的工具或不同的工具。每个代理通常有自己的人物形象。多Agent架构又可分为垂直架构和水平架构：垂直架构：在这种结构中，一个代理人充当领导者，其他代理人直接向他们汇报。水平架构：在这种结构中，所有代理都被视为平等的一部分，并参与关于任务的一组讨论。有效Agents的两个关键考虑因素：推理和规划： AI代理要有效地与复杂环境互动、做出自主决策并在各种任务中协助人类，它们需要强大的推理能力。规划，需要强大的推理能力，通常分为五种主要方法：任务分解、多计划选择、外部模块辅助规划、反思和完善以及记忆增强规划。有效工具调用：代理抽象相对于提示基础语言模型的一个关键优势是代理能够通过调用多个工具来解决复杂问题。这些工具使代理能够与外部数据源交互，从现有 API 发送或检索信息等。需要大量工具调用的问题通常与需要复杂推理的问题相辅相成。论文地址：

AI Agents大爆发：软件2.0雏形初现，OpenAI的下一步

AI Agents大爆发：软件2.0雏形初现，OpenAI的下一步本文编译自 Lilian Weng 的个人博客，Lilian 现在是 OpenAI 的 Head of Safety Systems，之前还领导过 OpenAI 的 Applied AI 团队。 AI Agent 被认为是 OpenAI 发力的下一个方向。OpenAI 的联合创始人 Andrej Karpathy 在近期的一次公开活动上提到“相比模型训练方法，OpenAI 内部目前更关注 Agent 领域的变化，每当有新的 AI Agents 论文出来的时候，内部都会很兴奋并且认真地讨论”，而在更早之前，Andrej还评价 AutoGPT 是 Prompt Engineering 下一阶段的探索方向。 Lilian Weng 的这篇 Blog 可以说是目前 AI Agent 领域优质论文的系统综述，她将 Agents 定义为 LLM、记忆（Memory）、任务规划（Planning Skills）以及工具使用（Tool Use）的集合，其中 LLM 是核心大脑，Memory、Planning Skills 以及 Tool Use 等则是 Agents 系统实现的三个关键组件，在文章中，她还对每个模块下实现路径进行了细致的梳理和说明。到今天，构建 AI Agent 的工具箱已经相对完善，但仍需要面对一些限制，例如上下文长度、长期规划和任务分解，以及 LLM 能力的稳定性等。从今年 3 月 AutoGPT 推出后，Generative Agent、GPT-Engineer、BabyAGI 项目的爆发将 LLM 的叙事代入了新的阶段，从“超级大脑”到真正有可能成为“全能助手”。Lillian 在自己的 Twitter 中也认为“This is probably just a new era”。 |

：一个致力于利用开源模型创建自己的JARVIS 的项目。

：一个致力于利用开源模型创建自己的JARVIS 的项目。 AIlice 通过构建一个以LLM作为核心处理器的“文本计算机”来实现这一目标（项目代码仅三千多行）。目前，AIlice 能够熟练的处理一系列任务，包括主题研究、编码、系统管理、文献综述以及超出这些基本能力的复杂混合任务。 AIlice 在使用 GPT-4 的日常任务中达到了近乎完美的性能，并且正在利用最新的开源模型向实际应用迈进。基本特性 1. 自然且高度容错的IACT(Interactive Agents Calling Tree)架构。 2. 以最灵活的方式解析LLM输出，支持更多种多样的函数调用机制. 3. 自我构建并动态加载环境交互模块，为功能扩展提供无限潜力。 4. 专为开源模型设计，但可以无缝支持商业模型，如GPT-4。 5. 支持对特定主题进行深入调查。 6. 支持文献阅读。 7. 自动化编程和脚本执行。它是一个全能的coder和系统管理工具，掌握所有系统命令你可以把它看作一个人工智能操作系统。 8. 支持多模态模型。 9. 支持语音交互。 10. 用户以两种方式灵活的参与对话：以agent的一员，或者在任务执行中直接介入。

ChatGPT 更新汇总

ChatGPT 更新汇总 • 每个人都能定制GPT：用户可以为特定任务创建定制版本的 ChatGPT ，且无需编写代码。断了部分一部分套壳定制产品的活路 • 即将推出 GPT Store：所有用户可上传自定义的 ChatGPT ，创作者可参与收益分成 • GPT-4 API 升级为 GPT-4 Turbo： · 上下文长度从 8K 提升至 128K； · 多模态视觉、DALL·E 3 和语音合成 API 一起开放； · 知识库更新到 2023 年 4 月； · 对部分企业开放 GPT4 微调 • 降价： · GPT4 输入降低 70%，输出降低 50%； · 与 GPT-4 相比。Turbo 整体价格降低超过 2.75 倍； · 降低 GPT-3.5 Turbo 16K的价格，输入降低 4 倍，输出降低 3 倍 • 开源语音和图像模块：开源 WhisperV3、Consistency Decoder • 发布 GPT Assistant API：可以帮助开发者在自己的应用程序中构建 Agent，包含代码解释器、知识库、函数调用 • 数据：200 万开发者和 1 亿周活跃用户，约 90% 的财富 500 强公司正在内部使用这些工具

下一代Windows系统曝光：基于GPT-4V Agent跨应用调度代号UFO

下一代Windows系统曝光：基于GPT-4V Agent跨应用调度代号UFO 还有像利用多个来源文本，比如word文档、图像文本内容，撰写电子邮件。网友表示：这才是Windows级别应有的创新能力第一个Windows Agent来了这样一个智能体叫做UFO，全名“UI-Focused”，是一个专为Windows OS（操作系统）交互设计、面向用户界面（UI）的智能体框架，可以在单个或者多个应用程序中操作，由MSRA、微软AI与应用研究团队等共同打造。用户就可以通过自然语言指令，来操作App的用户界面。据介绍，UFO是第一个专为Windows OS环境中的任务完成量身定制的UI Agent。就拿删除PPT上的所有注释为例。传统方式需要一页一页手动删除注释。如果PPT巨长无比，这个过程就会又久又无聊，让人瞬间暴躁。但UFO得到指令后，简化了整个过程。它先是提议用“删除所有演示笔记”功能，这个功能因为按钮位置藏得很深，经常被用户忽视。而后，UFO导航到“File”选项，对后台视图进行访问；然后，再平滑地切换到“info”菜单，单击“检查问题”按钮，并选择“检查文档”，开始检查文档中所有包含的注释。紧接着，UFO识别到菜单地步的“删除所有演示笔记”，向下滚动定位到其位置，启动单击功能。考虑到误删的可能性，UFO这里有一道保护功能，需要用户再次确定是否真的要删除所有注释。用户一旦确认，所有笔记就“”的一下都没有了～如PowerPoint这般，文章中对其它几个场景进行了图文并茂的展示。比如读一篇PDF：设计PPT格式：下载Docker拓展：发条推文：搜索总结：读篇paper：以及怎么利用UFO在Word文档里提取文本、描述图像、撰写然后发送电子邮件等。研究团队在9个常用的Windows应用程序上对UFO进行了测试，包括Outlook、Photos、PPT、Word等，涵盖了Windows用户的高频使用场景，能够测试工作、交流、编码、阅读、网页浏览等目的。对于每个应用程序，团队设计了5个不同的请求，共45个；另外还设计了5个设计跨多个交互应用程序的请求。也就是说，共产生了50个请求，每个应用程序至少有一个请求链接到另一个后续请求，提供全面评估UFO的互动模式。在评估指标方面，则从成功度、步骤、完成率和保障率这几个角度来评估UFO。为了全面评估UFO的性能，团队开发了名为WindowsBench的测试基准。考虑到没有现成的Windows Agent，团队选择GPT-3.5和GPT-4作为基座模型，并且指示它们提供一步一步的指导来完成用户请求。值得注意的是，UFO在WindowsBench上成功率达到了86%，成倍超过了GPT-4因此UFO可以被定位为一个高效的Agent。而UFO的完成率也是最好的，这表明它有能力采取更精确的动作；此外，UFO完成任务的步骤也是最少的，安全度也是最高的。最后，9个场景从4个角度在WindowsBench的详细得分如下：三个模块组成既然如此，这样一个操作系统级别的Agent，究竟是如何实现的呢？首先，它理解用户的自然语言要求，然后将其分解为一系列子任务。然后观察用户界面，并对其控制元素进行操作，以实现总体目标。既然如此，又是如何实现的呢？架构上看，UFO是个双Agent框架，主要有三个模块：应用智能体（AppAgent），选择一个应用程序满足用户请求。行动智能体（ActAgent），负责在所选应用中反复执行任务。交互控制，无需人工干预，全自动执行。在收到用户请求后，AppAgent会对需求进行分析。除此之外，还有这些信息作为输入：桌面截图、App信息、记忆以及示例。其中，UFO为AppAgent提供了完整的桌面截图和可用应用程序列表以供参考。然后从当前激活的应用程序中选择一个合适的应用程序，并制定一个全局实现计划，将其传递给ActAgent。一旦找到合适的应用程序，App就会出现在桌面上。随后ActAgent启动操作。在每个操作选择之前，UFO都会捕获当前应用程序用户界面窗口的屏幕截图，并标注所有可用控件。此外，UFO还记录了每个控件的相关信息，供 ActAgent观察。ActAgent的任务是选择要操作的控件，然后通过控件交互模块选择要在所选控件上执行的特定操作。这一决定是基于 ActAgent 的观察结果、先前计划和操作记忆做出的。这个递归过程一直持续到用户请求在所选应用程序中成功完成为止。至此，用户请求的一个阶段结束。如果需要跨越多个应用程序，那么在ActAgent 完成当前任务之后，ActAgent 将把任务委托给 AppAgent，以便切换到不同的应用程序，从而启动请求的第二阶段。用户可以选择提出新的请求，促使 UFO 通过重复上述过程来处理新任务。研究团队依据日常鼠标操作，还开发了自定义操作，比如单击、选择文本、滚动等，以此来完成对于控件的操作。主要有这些控制类型。微软全球资深副总裁、MSRA副院长领衔最后介绍一下UFO的研究团队，其中大多数都为华人。通讯作者Chaoyun Zhang，是微软DKI（Data、Knowledge、Intelligence，数据/知识/情报）*小组的高级研究员。他于2020年，在爱丁堡大学获得硕士和博士学位，研究兴趣包括时间序列建模、时空数据挖掘、因果推理以及云服务和 AIOps的可解释机器学习。Chaoyun Zhang还是华中科技大学校友，出国前在华中科技大学电子信息与通信学院取得学士学位。作者Liqun Li，现为微软DKI组首席研究员。他先毕业于清华大学计算机科学与技术系，取得学士学位；而后又在2012年获得中国科学院软件研究所博士学位。期间，Liqun Li曾作为访问学者前往密歇根州立大学。作者Saravan Rajmohan，Miceosoft 365的AI及应用研究的合作伙伴总监。他领导应用研究团队与Microsoft的各个研究小组进行深入协作，将算法研究与AI/ML技术和硬件创新相结合作者张冬梅，MSRA（微软亚洲研究院）常务副院长，微软杰出首席科学家。她从2004年起加入MSRA，从事和领导DKI领域的研究工作，近几年，团队将研究扩大到商业智能领域。作者张祺，微软全球资深副总裁。此前，张祺曾任微软（亚洲）互联网工程院常务副院长，兼任微软移动联新互联网服务有限公司董事长，负责微软互联网业务及人工智能平台在亚洲的团队。同时，他也是微软中国首位“全球杰出工程师”。最后，简单介绍一下多位作者的工作单位：MSRA的DKI组。DKI是Data、Knowledge、Intelligence的简写。该小组致力于AI、数据分析、数据交互、数据可视化的研究，探索全新的数据分析、展示、交互技术，让数据和数据中的发现故事被高效地理解、广泛地传播。团队与微软产品如Excel，PowerPoint等深度合作，常年在各个领域的顶会和期刊上发表论文。 ... PC版：手机版：

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人