下一代Windows系统曝光:基于GPT-4V Agent跨应用调度 代号UFO

下一代Windows系统曝光:基于GPT-4V Agent跨应用调度 代号UFO 还有像利用多个来源文本,比如word文档、图像文本内容,撰写电子邮件。网友表示:这才是Windows级别应有的创新能力第一个Windows Agent来了这样一个智能体叫做UFO,全名“UI-Focused”,是一个专为Windows OS(操作系统)交互设计、面向用户界面(UI)的智能体框架,可以在单个或者多个应用程序中操作,由MSRA、微软AI与应用研究团队等共同打造。用户就可以通过自然语言指令,来操作App的用户界面。据介绍,UFO是第一个专为Windows OS环境中的任务完成量身定制的UI Agent。就拿删除PPT上的所有注释为例。传统方式需要一页一页手动删除注释。如果PPT巨长无比,这个过程就会又久又无聊,让人瞬间暴躁。但UFO得到指令后,简化了整个过程。它先是提议用“删除所有演示笔记”功能,这个功能因为按钮位置藏得很深,经常被用户忽视。而后,UFO导航到“File”选项,对后台视图进行访问;然后,再平滑地切换到“info”菜单,单击“检查问题”按钮,并选择“检查文档”,开始检查文档中所有包含的注释。紧接着,UFO识别到菜单地步的“删除所有演示笔记”,向下滚动定位到其位置,启动单击功能。考虑到误删的可能性,UFO这里有一道保护功能,需要用户再次确定是否真的要删除所有注释。用户一旦确认,所有笔记就“”的一下都没有了~如PowerPoint这般,文章中对其它几个场景进行了图文并茂的展示。比如读一篇PDF:设计PPT格式:下载Docker拓展:发条推文:搜索总结:读篇paper:以及怎么利用UFO在Word文档里提取文本、描述图像、撰写然后发送电子邮件等。研究团队在9个常用的Windows应用程序上对UFO进行了测试,包括Outlook、Photos、PPT、Word等,涵盖了Windows用户的高频使用场景,能够测试工作、交流、编码、阅读、网页浏览等目的。对于每个应用程序,团队设计了5个不同的请求,共45个;另外还设计了5个设计跨多个交互应用程序的请求。也就是说,共产生了50个请求,每个应用程序至少有一个请求链接到另一个后续请求,提供全面评估UFO的互动模式。在评估指标方面,则从成功度、步骤、完成率和保障率这几个角度来评估UFO。为了全面评估UFO的性能,团队开发了名为WindowsBench的测试基准。考虑到没有现成的Windows Agent,团队选择GPT-3.5和GPT-4作为基座模型,并且指示它们提供一步一步的指导来完成用户请求。值得注意的是,UFO在WindowsBench上成功率达到了86%,成倍超过了GPT-4因此UFO可以被定位为一个高效的Agent。而UFO的完成率也是最好的,这表明它有能力采取更精确的动作;此外,UFO完成任务的步骤也是最少的,安全度也是最高的。最后,9个场景从4个角度在WindowsBench的详细得分如下:三个模块组成既然如此,这样一个操作系统级别的Agent,究竟是如何实现的呢?首先,它理解用户的自然语言要求,然后将其分解为一系列子任务。然后观察用户界面,并对其控制元素进行操作,以实现总体目标。既然如此,又是如何实现的呢?架构上看,UFO是个双Agent框架,主要有三个模块:应用智能体(AppAgent),选择一个应用程序满足用户请求。行动智能体(ActAgent),负责在所选应用中反复执行任务。交互控制,无需人工干预,全自动执行。在收到用户请求后,AppAgent会对需求进行分析。除此之外,还有这些信息作为输入:桌面截图、App信息、记忆以及示例。其中,UFO为AppAgent提供了完整的桌面截图和可用应用程序列表以供参考。然后从当前激活的应用程序中选择一个合适的应用程序,并制定一个全局实现计划,将其传递给ActAgent。一旦找到合适的应用程序,App就会出现在桌面上。随后ActAgent启动操作。在每个操作选择之前,UFO都会捕获当前应用程序用户界面窗口的屏幕截图,并标注所有可用控件。此外,UFO还记录了每个控件的相关信息,供 ActAgent观察。ActAgent的任务是选择要操作的控件,然后通过控件交互模块选择要在所选控件上执行的特定操作。这一决定是基于 ActAgent 的观察结果、先前计划和操作记忆做出的。这个递归过程一直持续到用户请求在所选应用程序中成功完成为止。至此,用户请求的一个阶段结束。如果需要跨越多个应用程序,那么在ActAgent 完成当前任务之后,ActAgent 将把任务委托给 AppAgent,以便切换到不同的应用程序,从而启动请求的第二阶段。用户可以选择提出新的请求,促使 UFO 通过重复上述过程来处理新任务。研究团队依据日常鼠标操作,还开发了自定义操作,比如单击、选择文本、滚动等,以此来完成对于控件的操作。主要有这些控制类型。微软全球资深副总裁、MSRA副院长领衔最后介绍一下UFO的研究团队,其中大多数都为华人。通讯作者Chaoyun Zhang,是微软DKI(Data、Knowledge、Intelligence,数据/知识/情报)*小组的高级研究员。他于2020年,在爱丁堡大学获得硕士和博士学位,研究兴趣包括时间序列建模、时空数据挖掘、因果推理以及云服务和 AIOps的可解释机器学习。Chaoyun Zhang还是华中科技大学校友,出国前在华中科技大学电子信息与通信学院取得学士学位。作者Liqun Li,现为微软DKI组首席研究员。他先毕业于清华大学计算机科学与技术系,取得学士学位;而后又在2012年获得中国科学院软件研究所博士学位。期间,Liqun Li曾作为访问学者前往密歇根州立大学。作者Saravan Rajmohan,Miceosoft 365的AI及应用研究的合作伙伴总监。他领导应用研究团队与Microsoft的各个研究小组进行深入协作,将算法研究与AI/ML技术和硬件创新相结合作者张冬梅,MSRA(微软亚洲研究院)常务副院长,微软杰出首席科学家。她从2004年起加入MSRA,从事和领导DKI领域的研究工作,近几年,团队将研究扩大到商业智能领域。作者张祺,微软全球资深副总裁。此前,张祺曾任微软(亚洲)互联网工程院常务副院长,兼任微软移动联新互联网服务有限公司董事长,负责微软互联网业务及人工智能平台在亚洲的团队。同时,他也是微软中国首位“全球杰出工程师”。最后,简单介绍一下多位作者的工作单位:MSRA的DKI组。DKI是Data、Knowledge、Intelligence的简写。该小组致力于AI、数据分析、数据交互、数据可视化的研究,探索全新的数据分析、展示、交互技术,让数据和数据中的发现故事被高效地理解、广泛地传播。团队与微软产品如Excel,PowerPoint等深度合作,常年在各个领域的顶会和期刊上发表论文。 ... PC版: 手机版:

相关推荐

封面图片

微软正在开发一个能与 ChromeOS 竞争的下一代操作系统

微软正在开发一个能与 ChromeOS 竞争的下一代操作系统 该项目代号为 CorePC,旨在成为一个模块化和可定制的 Windows 变体,采用了许多与相同的创新。并非所有的 Windows PC 都需要对传统 Win32 应用程序的全面支持,CorePC 将允许微软配置具有不同功能和应用程序兼容性水平的 Windows “版本”。与目前的 Windows 版本相比,最大的变化是 CorePC 是状态分离的,这可以使更新速度更快,并通过用户和第三方应用程序无法访问的只读分区提供一个更安全的平台,就像 iPadOS 或安卓一样。CorePC 将使微软最终能够提供一个在操作系统尺寸、性能和功能上真正与 ChromeOS 竞争的 Windows 版本。来源 , 来自:雷锋 频道:@kejiqu 群组:@kejiquchat 投稿:@kejiqubot

封面图片

微软暗示将在ARM平台上推出下一代Windows系统

微软暗示将在ARM平台上推出下一代Windows系统 该会议的网页将其描述为"今年Arm-powered Windows令人兴奋的新体验"。我们期待微软能在 Windows 11 中介绍备受期待的人工智能功能,这些功能将原生运行,因为今年夏天发布的新一波人工智能 PC 将搭载 NPU。神经处理单元 (NPU) 将提供计算能力,以处理应用程序和操作系统中的特定人工智能任务。我们在"画图"应用中发现了即将推出的基于 NPU 的功能的蛛丝马迹。除了这个 ARM 会议,还有多个关于人工智能及其优势的会议。还有许多关于 Copilot、开发人员如何为 Copilot 构建应用程序和插件等的会议。您已经可以在 Copilot(网页、应用和 Windows 11)中使用 Adobe、Spotify 等扩展功能。微软已与多个品牌合作,通过 Copilot 中的插件将它们整合在一起。高通公司最新的骁龙 X Elite 芯片将为 2024 年及以后即将推出的人工智能 PC 提供动力。泄露的基准测试结果显示,高通公司的芯片速度极快,可以轻松超越 M1 和 M2 Mac 处理器。最近泄露的信息显示,微软有信心骁龙 X Elite PC 的性能超过 M3 MacBook Air。因此,它是 Windows 11 中新人工智能功能的完美候选者。其中之一就是备受关注的人工智能资源管理器功能,它将帮助您跟踪您在电脑上执行的每一个操作。最棒的是,你可以用简单的句子询问信息,而不是使用专门的对话格式。ARM 专注于在性能和电池续航时间之间取得完美平衡,因此微软将其操作系统的未来押在了 ARM 上。微软相信,即将推出的人工智能个人电脑将在未来三年内占据个人电脑市场50%的份额。一系列不含 NPU 的 Snapdragon X Plus 处理器 也将面向入门级和中级 PC。 ... PC版: 手机版:

封面图片

Windows 11:微软表示不会让你删除Windows备份应用程序

Windows 11:微软表示不会让你删除Windows备份应用程序 在报告“Windows 备份”应用程序安装在 Windows 10 LSTC 和企业系统上甚至无法运行后,微软发布了一份支持文档,解释了发生的情况。 微软在一份中澄清,Windows备份与Windows设置一样是一个系统组件,无法从系统中删除。 目前,Windows 备份应用程序主要针对消费类设备。这意味着它仅适用于使用个人 Microsoft 帐户的设备。 在企业系统或 LTSC 机器上,微软最终同意在“开始”菜单中将应用程序隐藏。 在中,微软暗示即将推出 Windows 更新,旨在当系统检测到 AAD 或 AD 帐户时隐藏该应用程序,特别是那些使用 Windows 10/11 专业版、教育版或企业版的系统。 下次更新后,Windows 备份将在用户界面区域中消失,包括“所有应用程序”或“已安装的应用程序”列表,但它将继续存在于操作系统中。

封面图片

Windows 11 将 Copilot 降级为基于 Microsoft Edge 的封装网页应用

Windows 11 将 Copilot 降级为基于 Microsoft Edge 的封装网页应用 当 Copilot 刚出现在 Windows 11 上时,它被固定在"开始"菜单按钮旁边。几个月后,微软用 Copilot 取代了"显示桌面"按钮,目前它在右侧边栏打开。这表明,微软一直在 Windows 11 上积极推动 Copilot。它还测试了 Copilot 中的 Windows 集成,包括一项实验,即使用 Copilot 打开设置并将主题从浅色更改为深色。此外,微软还在 Windows 10 中添加了 Copilot,这在宣称该操作系统已获得安全支持之后着实令人吃惊。 在其中一个预览版中,微软测试了使用 Copilot 在本地驱动器之间传输文件的支持。然而,Windows 11 的最新更新已向部分用户推出,不少测试用户很快就发现其中删除了这些改进。Copilot 已降级为网络应用程序。它不再作为侧边栏打开,也不能打开或更改 Windows 设置。更糟糕的是,微软在将 Copilot 集成到 Windows 系统方面几乎没有付出任何努力。例如,在 Windows 的新 Copilot 应用程序中的任意位置单击右键,就可以查看所有与 Edge 相关的设置和选项。在这里点击几下,你甚至可以在 Copilot 容器中打开一个无关的网站。这是因为 Windows 版 Copilot"应用"只需打开 Microsoft Edge 中的 copilot.microsoft.com。你甚至都不需要这款应用程序,而且微软已经简化了从 Windows 中完全删除 Copilot 的操作。你只需搜索 Copilot 并选择"卸载"。这样就可以删除该应用了。这些功能有可能在未来的版本中回归,但这样的降级操作让人为Copilot的未来捏把汗。 ... PC版: 手机版:

封面图片

微软Build大会将详细介绍"下一代"Windows on Arm和新的AI功能

微软Build大会将详细介绍"下一代"Windows on Arm和新的AI功能 微软列出了今天的 Build 开发者会议日程,其中有两场会议提到了"下一代 Windows on Arm"和"全新的 Windows AI 功能"。下一代 Arm 上的 Windows 会议将包括有关应用程序"业界领先性能"的详细信息,这很可能是在暗示微软希望在 CPU 性能和应用程序仿真方面击败苹果 M3 芯片的雄心壮志。同一场会议还将包括"今年搭载 Arm 的 Windows 的新体验,例如利用 NPU 丰富功能的智能 Windows 应用"的详细介绍。届时很可能展示更多的 Windows AI 功能,这在另一场 Build 会议中也有所暗示。"我们将展示全新的功能,通过先进的 AI 功能让用户在 Windows 上与他们的数字生活进行更深入的互动,"微软在 Build 会议说明中表示。这听起来很像传闻中即将在 Windows 11 中推出的 AI Explorer 功能,该功能的设计初衷是作为一个时间轴,让你能在 PC 上召唤它。微软内部将其描述为一项可以让你"检索你在设备上看过或做过的任何事情"的功能。微软 Build 的其他会议还将重点讨论如何构建 Copilots,甚至是人工智能助手的插件。微软还将详细介绍 Windows 开发者体验方面的一些改进,这些改进来自将Windows 终端、Dev Home、PowerToys 和Linux 版 Windows 子系统带入生活的团队。 ... PC版: 手机版:

封面图片

Adobe将很快推出更多基于Arm的Windows原生应用 包括 Illustrator

Adobe将很快推出更多基于Arm的Windows原生应用 包括 Illustrator 虽然这些笔记本电脑都可以通过微软的 Prism 仿真运行专为 x86 芯片设计的应用程序,但也有一些应用程序被移植到了运行 Windows 11 的 Arm64 芯片上。今天,一份新的报告称,Adobe 的一些应用程序将在不久的将来推出 Arm64 Windows 的原生版本。微软Windows营销副总裁亚伦-伍德曼(Aaron Woodman)表示,两款流行的 Adobe 应用程序 Illustrator 和 InDesign 将于 7 月份推出原生 Arm for Windows 应用程序。报道称,另外两个 Adobe 应用程序 Premiere Pro 和 After Effects 也将获得原生 Arm for Windows 版本,但要到 2024 年晚些时候才能推出。显然,这些原生应用程序应该可以在配备骁龙 X 芯片的 Copilot+ PC 笔记本电脑上运行,与通过 Prism 模拟器使用这些应用程序的 x86 版本相比性能会更好。微软此前设立了一个 Arm 咨询委员会,其开发人员可以帮助应用程序创建者从头开始为 Windows 开发新的 Arm 应用程序,或将现有的 x86 应用程序移植到 Arm 平台。今年 3 月,Google在 Windows 平台上推出了深受欢迎的 Arm版Chrome 浏览器。最近,Slack在 Arm 平台上推出了一个适用于 Windows 的商务聊天服务版本,不过目前仍处于测试预览状态。 ... PC版: 手机版:

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人