Apple 推出了 Ferret-UI，帮助 Siri 理解手机界面。

Apple 推出了 Ferret-UI，帮助 Siri 理解手机界面。现阶段用 LLM 做 RPA 有一个问题，LLM 通常会压缩图片分辨率，导致在UI界面理解上经常识别不准，也无法正确提取文字，识别UI元素。看起来 Apple 对这个场景做了针对性的调整，有一个放大系统，可以将图像放大到“任何分辨率”，使图标和文本更具可读性。可能代表着苹果在往 RPA 方向尝试。

在Telegram中查看

相关推荐

苹果发布了专门用于理解应用 UI 界面的 MLLLM Ferret-UI 。

苹果发布了专门用于理解应用 UI 界面的 MLLLM Ferret-UI 。专门针对移动UI屏幕进行了优化，具备了指向、定位和推理等多种能力。看来 iOS 18 有可能会有类似通过Siri自动操作应用界面的能力？ -详细介绍- Ferret-UI模型的介绍与特点： Ferret-UI是一个新的MLLM，专门为提高对移动UI屏幕的理解而设计。它具备引用、定位和推理能力，能够处理UI屏幕上的各种任务。Ferret-UI的一个关键特点是其“任何分辨率”（any resolution）技术，该技术通过放大细节来解决UI屏幕中小型对象的识别问题，从而提高模型对UI元素的理解精度。移动用户界面（UI）屏幕的理解： UI屏幕的理解是一个复杂的问题，因为它不仅要求模型能够理解屏幕上的内容，还要能够识别和操作具体的UI元素。与传统的自然图像相比，UI屏幕通常具有更多的长宽比和更小的元素，这些元素对于模型来说是一个挑战。此外，UI屏幕的理解还涉及到对屏幕元素间关系的识别，以及对用户可能采取的行动的预测。 “任何分辨率”（any resolution）技术的应用：为了克服UI屏幕中的小对象识别问题，Ferret-UI采用了“任何分辨率”技术。该技术通过将屏幕分割成基于原始宽高比的子图像，并对每个子图像进行单独编码，从而在不丢失重要视觉信号的情况下放大细节。这种方法使得模型能够更准确地识别和理解UI屏幕上的小型对象。训练样本的收集与任务制定： Ferret-UI的训练涉及从基础UI任务到高级任务的广泛数据样本收集。这些样本被格式化为带有区域注释的指令遵循格式，以便于模型进行精确的引用和定位。此外，为了提高模型的推理能力，还特别编制了一个包含详细描述、感知/交互对话和功能推断等高级任务的数据集。模型架构与数据集的建立： Ferret-UI的架构基于Ferret模型，后者在自然图像的引用和定位任务中表现出色。为了适应UI屏幕的特点，Ferret-UI进行了架构调整，包括集成“任何分辨率”技术和使用预定义的网格配置来划分全图图像。此外，为了全面评估模型的能力，还建立了一个包含所有研究任务的综合测试基准。高级任务中的对话能力： Ferret-UI在高级任务中的对话能力表现突出，尤其是在详细描述和交互对话任务中。

《RealSR放大图片 v1.11.1 AI图片放大工具》

《RealSR放大图片 v1.11.1 AI图片放大工具》简介：一款基于人工智能的图片无损放大工具，通过深度学习算法智能提升图像分辨率，有效修复模糊细节并减少噪点，确保放大后的图片保持自然清晰，适用于摄影、设计等领域的高质量输出需求。亮点：搭载最新超分辨率模型，支持批量处理与多种格式输入；智能识别图像内容，针对纹理、边缘进行自适应优化，即使低分辨率图片也能呈现细腻画质，操作界面简洁，无需专业技巧即可快速上手。标签： #AI图像放大#超分辨率技术#细节修复#智能降噪#RealSR#跨平台支持更新日期：2025-04-20 04:23:43 链接：https://pan.quark.cn/s/da335224875b

三星 Galaxy M52 5G 手机官宣：骁龙 778G/ 120Hz 屏幕，9 月 28 日发布

三星 Galaxy M52 5G 手机官宣：骁龙 778G/ 120Hz 屏幕，9 月 28 日发布手机将搭载 6.7 英寸 Super AMOLED 屏幕，FHD+ 分辨率，具有 120Hz 刷新率。手机内置 5000mAh 电池，支持 25W 快充，搭载 One UI 3.1 系统，使用侧边指纹识别方式

阿里巴巴开源能理解图像的 AI 模型 Qwen-VL

阿里巴巴开源能理解图像的 AI 模型 Qwen-VL 阿里巴巴周五开源了能理解图像和完成更复杂对话的 AI 模型和 Qwen-VL-Chat。阿里巴巴称，Qwen-VL 基于 Qwen-7B，可以以图像、文本、检测框作为输入，并以文本和检测框作为输出，它使用了约 1.5B 的图文数据训练。在四大类多模态任务的标准英文测评中上，Qwen-VL 均取得同等通用模型大小下最好效果；支持英文、中文等多语言对话，端到端支持图片里中英双语的长文本识别；支持多图输入和比较，指定图片问答，多图文学创作等；相比于目前其它开源 LVLM使用的 224 分辨率，Qwen-VL 是首个开源的 448 分辨率的 LVLM 模型。更高分辨率可以提升细粒度的文字识别、文档问答和检测框标注。Qwen-VL 和 Qwen-VL-Chat 使用名为 Tongyi Qianwen LICENSE AGREEMENT 的许可证，有限制条件，如果商业使用，则需要从阿里巴巴获得授权。来源，频道：@kejiqu 群组：@kejiquchat 投稿：@kejiqubot

《AE苹果手机 iPhone 16灵动岛应用程序通知界面UI.UX效果动画模板 Dynamic island phone int

《AE苹果手机 iPhone 16灵动岛应用程序通知界面UI.UX效果动画模板 Dynamic island phone interface 》简介：AE苹果手机 iPhone 16灵动岛应用程序通知界面UI.UX效果动画模板 Dynamic island phone interface是一本深入探讨其核心主题的著作，作者通过大量案例分析与深入研究，提供了对相关问题的独特见解。书中详细介绍了该领域中的关键点，帮助读者更好地理解和掌握相关知识，适合各类读者阅读。更多详情请访问相关链接。标签： #AE苹#AE苹果手机 iPhone 16灵动岛应用程序通知界面UI.UX效果动画模板 Dynamic island phone interface#书籍文件大小：NG 链接：https://pan.quark.cn/s/e90cd00c0309

俄罗斯推出类似 YouTube 的服务：推出新服务“平台”

俄罗斯推出类似 YouTube 的服务：推出新服务“平台” ▪来自 Rteam 公司的俄罗斯开发人员推出了一个新的视频托管“平台”，旨在成为 YouTube 的类似物。 ▪平台服务提供与YouTube类似的界面和功能。新服务包括推荐系统、推广工具和博主分析。视频分辨率高达 4K，字幕支持俄语和英语识别。 ▪Rteam总经理Andrey Talyzin指出，该“平台”每秒能够处理多达24万个请求。该服务还支持类似于 YouTube Shorts 的短视频格式，并包括针对违反俄罗斯法律或包含反俄罗斯言论的内容的审核系统。 - 塔斯社报道 https://t.me/JShangrong

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人