苹果发布了专门用于理解应用 UI 界面的 MLLLM Ferret-UI 。

苹果发布了专门用于理解应用 UI 界面的 MLLLM Ferret-UI 。 专门针对移动UI屏幕进行了优化,具备了指向、定位和推理等多种能力。 看来 iOS 18 有可能会有类似通过Siri自动操作应用界面的能力? -详细介绍- Ferret-UI模型的介绍与特点: Ferret-UI是一个新的MLLM,专门为提高对移动UI屏幕的理解而设计。它具备引用、定位和推理能力, 能够处理UI屏幕上的各种任务。Ferret-UI的一个关键特点是其“任何分辨率”(any resolution)技术,该技术通过放大细节来解决UI屏幕中小型对象的识别问题,从而提高模型对UI元素的理解精度。 移动用户界面(UI)屏幕的理解: UI屏幕的理解是一个复杂的问题,因为它不仅要求模型能够理解屏幕上的内容,还要能够识别和操作具体的UI元素。 与传统的自然图像相比,UI屏幕通常具有更多的长宽比和更小的元素,这些元素对于模型来说是一个挑战。此外,UI屏幕的理解还涉及到对屏幕元素间关系的识别,以及对用户可能采取的行动的预测。 “任何分辨率”(any resolution)技术的应用: 为了克服UI屏幕中的小对象识别问题,Ferret-UI采用了“任何分辨率”技术。该技术通过将屏幕分割成基于原始宽高比的子图像,并对每个子图像进行单独编码,从而在不丢失重要视觉信号的情况下放大细节。 这种方法使得模型能够更准确地识别和理解UI屏幕上的小型对象。 训练样本的收集与任务制定: Ferret-UI的训练涉及从基础UI任务到高级任务的广泛数据样本收集。这些样本被格式化为带有区域注释的指令遵循格式,以便于模型进行精确的引用和定位。 此外,为了提高模型的推理能力,还特别编制了一个包含详细描述、感知/交互对话和功能推断等高级任务的数据集。 模型架构与数据集的建立: Ferret-UI的架构基于Ferret模型,后者在自然图像的引用和定位任务中表现出色。为了适应UI屏幕的特点,Ferret-UI进行了架构调整,包括集成“任何分辨率”技术和使用预定义的网格配置来划分全图图像。 此外,为了全面评估模型的能力,还建立了一个包含所有研究任务的综合测试基准。 高级任务中的对话能力: Ferret-UI在高级任务中的对话能力表现突出,尤其是在详细描述和交互对话任务中。

相关推荐

封面图片

Apple 推出了 Ferret-UI,帮助 Siri 理解手机界面。

Apple 推出了 Ferret-UI,帮助 Siri 理解手机界面。 现阶段用 LLM 做 RPA 有一个问题,LLM 通常会压缩图片分辨率,导致在UI界面理解上经常识别不准,也无法正确提取文字,识别UI元素。 看起来 Apple 对这个场景做了针对性的调整,有一个放大系统,可以将图像放大到“任何分辨率”,使图标和文本更具可读性。 可能代表着苹果在往 RPA 方向尝试。

封面图片

微软公布可以理解图像内容的 AI 模型

微软公布可以理解图像内容的 AI 模型 微软的研究人员介绍了多模态模型 ,它可以分析图像内容,解决拼图问题,进行视觉文本识别,通过视觉智商测试,并理解自然语言指令。研究人员认为,整合了文本、音频、图像和视频等不同输入模式的多模态人工智能,是建立人工通用智能(AGI)的关键步骤,可以执行人类水平的一般任务。他们在一些测试中评估了 Kosmos-1 的能力,包括语言理解、语言生成、无光学字符识别的文本分类、图像说明、视觉问题回答、网页问题回答和零样本图像分类。微软称,在许多这些测试中,Kosmos-1 的表现超过了目前最先进的模型。来源 , 来自:雷锋 频道:@kejiqu 群组:@kejiquchat 投稿:@kejiqubot

封面图片

Google发布了一个生成式AI学习路径,包括8门课和2个测试,从技术原理、实现方式到应用场景和开发部署都包括,完全免费。

Google发布了一个生成式AI学习路径,包括8门课和2个测试,从技术原理、实现方式到应用场景和开发部署都包括,完全免费。 1.:什么是生成式AI,有什么应用,和传统机器学习有什么不同。 2.:什么是大语言模型 (LLM),大语言模型的应用场景,以及提示词 (prompt) 和微调 (fine-tuning) 如何提升模型性能。 3. :什么是负责任的AI (Responsible AI),为什么AI模型安全可靠且道德很重要,以及如何打造一个使用负责任AI的产品。 4.:Diffusion Models图像生成模型理论、模型训练方法以及如何部署模型到云端 5. :机器翻译、语音识别等任务广泛应用的encoder-decoder 模型架构原理以及如何在TensorFlow中构建一个此架构的诗歌生成AI。 6. :神经网络中的注意力机制(Attention Mechanism)如何在计算能力有限的情况下将计算资源分配给更重要的任务,提高翻译、总结、问答等性能。 7. :自然语言处理中的预训练技术BERT(Bidirectional Encoder Representations from Transformers)的基础原理,以及其如何可以让AI在许多不同任务中的显著提升在上下文中理解无标记文本的能力。 8. :学习图像理解和标注,学习如何构建出一个看图说话理解图片的人工智能模型。

封面图片

:开源的视觉-语言(VL)模型,旨在实现真实世界的视觉语言理解。

:开源的视觉-语言(VL)模型,旨在实现真实世界的视觉语言理解。 它具有广泛的多模态理解能力,能够处理逻辑图表、网页、公式识别、科学文献、自然图像和复杂场景中的具体智能等。 DeepSeek-VL提供了多个模型版本,包括不同规模和功能的模型,以满足不同的研究和商业应用需求。

封面图片

是面向图文理解的开源多模态大模型系列。该系列模型接受图像和文本输入,并提供高质量的文本输出。目前发布了两个版本的模型,旨在实现领

是面向图文理解的开源多模态大模型系列。该系列模型接受图像和文本输入,并提供高质量的文本输出。目前发布了两个版本的模型,旨在实现领先的性能和高效的部署: MiniCPM-V 2.8B:可在终端设备上部署的先进多模态大模型。最新发布的 MiniCPM-V 2.0 可以接受 180 万像素的任意长宽比图像输入,实现了和 Gemini Pro 相近的场景文字识别能力以及和 GPT-4V 相匹的低幻觉率。 OmniLMM-12B:相比同规模其他模型在多个基准测试中具有领先性能,实现了相比 GPT-4V 更低的幻觉率。

封面图片

Meta 开源发布可分割识别任意图像中主体的 SAM 模型

Meta 开源发布可分割识别任意图像中主体的 SAM 模型 已经理解了对象是什么的一般概念,可以直接对没见过的图像进行分割任务 (识别像素属于哪个对象)。Meta 还同时开源发布了比任何现有分割数据集大400倍的 SA-1B 数据集。 SAM 可以成为庞大AI系统的一部分,用于对世界进行多模态理解,例如理解图像和文本。SAM 可以在 AR/VR 中根据用户的视线选择对象,进行识别查询或者3D建模。SAM 可以进行智能抠图或视频后期。SAM 还可用于地球与太空的科学任务,对动物和物体进行定位,例如细胞显微镜,牧场的动物识别,天体运行跟踪。

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人