Apple 推出了 Ferret-UI,帮助 Siri 理解手机界面。

Apple 推出了 Ferret-UI,帮助 Siri 理解手机界面。 现阶段用 LLM 做 RPA 有一个问题,LLM 通常会压缩图片分辨率,导致在UI界面理解上经常识别不准,也无法正确提取文字,识别UI元素。 看起来 Apple 对这个场景做了针对性的调整,有一个放大系统,可以将图像放大到“任何分辨率”,使图标和文本更具可读性。 可能代表着苹果在往 RPA 方向尝试。

相关推荐

封面图片

苹果发布了专门用于理解应用 UI 界面的 MLLLM Ferret-UI 。

苹果发布了专门用于理解应用 UI 界面的 MLLLM Ferret-UI 。 专门针对移动UI屏幕进行了优化,具备了指向、定位和推理等多种能力。 看来 iOS 18 有可能会有类似通过Siri自动操作应用界面的能力? -详细介绍- Ferret-UI模型的介绍与特点: Ferret-UI是一个新的MLLM,专门为提高对移动UI屏幕的理解而设计。它具备引用、定位和推理能力, 能够处理UI屏幕上的各种任务。Ferret-UI的一个关键特点是其“任何分辨率”(any resolution)技术,该技术通过放大细节来解决UI屏幕中小型对象的识别问题,从而提高模型对UI元素的理解精度。 移动用户界面(UI)屏幕的理解: UI屏幕的理解是一个复杂的问题,因为它不仅要求模型能够理解屏幕上的内容,还要能够识别和操作具体的UI元素。 与传统的自然图像相比,UI屏幕通常具有更多的长宽比和更小的元素,这些元素对于模型来说是一个挑战。此外,UI屏幕的理解还涉及到对屏幕元素间关系的识别,以及对用户可能采取的行动的预测。 “任何分辨率”(any resolution)技术的应用: 为了克服UI屏幕中的小对象识别问题,Ferret-UI采用了“任何分辨率”技术。该技术通过将屏幕分割成基于原始宽高比的子图像,并对每个子图像进行单独编码,从而在不丢失重要视觉信号的情况下放大细节。 这种方法使得模型能够更准确地识别和理解UI屏幕上的小型对象。 训练样本的收集与任务制定: Ferret-UI的训练涉及从基础UI任务到高级任务的广泛数据样本收集。这些样本被格式化为带有区域注释的指令遵循格式,以便于模型进行精确的引用和定位。 此外,为了提高模型的推理能力,还特别编制了一个包含详细描述、感知/交互对话和功能推断等高级任务的数据集。 模型架构与数据集的建立: Ferret-UI的架构基于Ferret模型,后者在自然图像的引用和定位任务中表现出色。为了适应UI屏幕的特点,Ferret-UI进行了架构调整,包括集成“任何分辨率”技术和使用预定义的网格配置来划分全图图像。 此外,为了全面评估模型的能力,还建立了一个包含所有研究任务的综合测试基准。 高级任务中的对话能力: Ferret-UI在高级任务中的对话能力表现突出,尤其是在详细描述和交互对话任务中。

封面图片

《RealSR放大图片 v1.11.1 AI图片放大工具》

《RealSR放大图片 v1.11.1 AI图片放大工具》 简介:一款基于人工智能的图片无损放大工具,通过深度学习算法智能提升图像分辨率,有效修复模糊细节并减少噪点,确保放大后的图片保持自然清晰,适用于摄影、设计等领域的高质量输出需求。 亮点:搭载最新超分辨率模型,支持批量处理与多种格式输入;智能识别图像内容,针对纹理、边缘进行自适应优化,即使低分辨率图片也能呈现细腻画质,操作界面简洁,无需专业技巧即可快速上手。 标签: #AI图像放大#超分辨率技术#细节修复#智能降噪#RealSR#跨平台支持 更新日期:2025-04-20 04:23:43 链接:https://pan.quark.cn/s/da335224875b

封面图片

三星 Galaxy M52 5G 手机官宣:骁龙 778G/ 120Hz 屏幕,9 月 28 日发布

三星 Galaxy M52 5G 手机官宣:骁龙 778G/ 120Hz 屏幕,9 月 28 日发布 手机将搭载 6.7 英寸 Super AMOLED 屏幕,FHD+ 分辨率,具有 120Hz 刷新率。手机内置 5000mAh 电池,支持 25W 快充,搭载 One UI 3.1 系统,使用侧边指纹识别方式

封面图片

阿里巴巴开源能理解图像的 AI 模型 Qwen-VL

阿里巴巴开源能理解图像的 AI 模型 Qwen-VL 阿里巴巴周五开源了能理解图像和完成更复杂对话的 AI 模型和 Qwen-VL-Chat。阿里巴巴称,Qwen-VL 基于 Qwen-7B,可以以图像、文本、检测框作为输入,并以文本和检测框作为输出,它使用了约 1.5B 的图文数据训练。在四大类多模态任务的标准英文测评中上,Qwen-VL 均取得同等通用模型大小下最好效果;支持英文、中文等多语言对话,端到端支持图片里中英双语的长文本识别;支持多图输入和比较,指定图片问答,多图文学创作等;相比于目前其它开源 LVLM使用的 224 分辨率,Qwen-VL 是首个开源的 448 分辨率的 LVLM 模型。更高分辨率可以提升细粒度的文字识别、文档问答和检测框标注。Qwen-VL 和 Qwen-VL-Chat 使用名为 Tongyi Qianwen LICENSE AGREEMENT 的许可证,有限制条件,如果商业使用,则需要从阿里巴巴获得授权。来源 , 频道:@kejiqu 群组:@kejiquchat 投稿:@kejiqubot

封面图片

《AE苹果手机 iPhone 16灵动岛应用程序通知界面UI.UX效果动画模板 Dynamic island phone int

《AE苹果手机 iPhone 16灵动岛应用程序通知界面UI.UX效果动画模板 Dynamic island phone interface 》 简介:AE苹果手机 iPhone 16灵动岛应用程序通知界面UI.UX效果动画模板 Dynamic island phone interface是一本深入探讨其核心主题的著作,作者通过大量案例分析与深入研究,提供了对相关问题的独特见解。书中详细介绍了该领域中的关键点,帮助读者更好地理解和掌握相关知识,适合各类读者阅读。更多详情请访问相关链接。 标签: #AE苹#AE苹果手机 iPhone 16灵动岛应用程序通知界面UI.UX效果动画模板 Dynamic island phone interface#书籍 文件大小:NG 链接:https://pan.quark.cn/s/e90cd00c0309

封面图片

俄罗斯推出类似 YouTube 的服务:推出新服务“平台”

俄罗斯推出类似 YouTube 的服务:推出新服务“平台” ▪来自 Rteam 公司的俄罗斯开发人员推出了一个新的视频托管“平台”,旨在成为 YouTube 的类似物。 ▪平台服务提供与YouTube类似的界面和功能。新服务包括推荐系统、推广工具和博主分析。视频分辨率高达 4K,字幕支持俄语和英语识别。 ▪Rteam总经理Andrey Talyzin指出,该“平台”每秒能够处理多达24万个请求。该服务还支持类似于 YouTube Shorts 的短视频格式,并包括针对违反俄罗斯法律或包含反俄罗斯言论的内容的审核系统 。 - 塔斯社报道 https://t.me/JShangrong

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人