苹果发布了专门用于理解应用 UI 界面的 MLLLM Ferret-UI 。

苹果发布了专门用于理解应用UI界面的MLLLMFerret-UI。专门针对移动UI屏幕进行了优化,具备了指向、定位和推理等多种能力。看来iOS18有可能会有类似通过Siri自动操作应用界面的能力?---------详细介绍---------Ferret-UI模型的介绍与特点:Ferret-UI是一个新的MLLM,专门为提高对移动UI屏幕的理解而设计。它具备引用、定位和推理能力,能够处理UI屏幕上的各种任务。Ferret-UI的一个关键特点是其“任何分辨率”(anyresolution)技术,该技术通过放大细节来解决UI屏幕中小型对象的识别问题,从而提高模型对UI元素的理解精度。移动用户界面(UI)屏幕的理解:UI屏幕的理解是一个复杂的问题,因为它不仅要求模型能够理解屏幕上的内容,还要能够识别和操作具体的UI元素。与传统的自然图像相比,UI屏幕通常具有更多的长宽比和更小的元素,这些元素对于模型来说是一个挑战。此外,UI屏幕的理解还涉及到对屏幕元素间关系的识别,以及对用户可能采取的行动的预测。“任何分辨率”(anyresolution)技术的应用:为了克服UI屏幕中的小对象识别问题,Ferret-UI采用了“任何分辨率”技术。该技术通过将屏幕分割成基于原始宽高比的子图像,并对每个子图像进行单独编码,从而在不丢失重要视觉信号的情况下放大细节。这种方法使得模型能够更准确地识别和理解UI屏幕上的小型对象。训练样本的收集与任务制定:Ferret-UI的训练涉及从基础UI任务到高级任务的广泛数据样本收集。这些样本被格式化为带有区域注释的指令遵循格式,以便于模型进行精确的引用和定位。此外,为了提高模型的推理能力,还特别编制了一个包含详细描述、感知/交互对话和功能推断等高级任务的数据集。模型架构与数据集的建立:Ferret-UI的架构基于Ferret模型,后者在自然图像的引用和定位任务中表现出色。为了适应UI屏幕的特点,Ferret-UI进行了架构调整,包括集成“任何分辨率”技术和使用预定义的网格配置来划分全图图像。此外,为了全面评估模型的能力,还建立了一个包含所有研究任务的综合测试基准。高级任务中的对话能力:Ferret-UI在高级任务中的对话能力表现突出,尤其是在详细描述和交互对话任务中。

相关推荐

封面图片

微软公布可以理解图像内容的 AI 模型

微软公布可以理解图像内容的AI模型微软的研究人员介绍了多模态模型,它可以分析图像内容,解决拼图问题,进行视觉文本识别,通过视觉智商测试,并理解自然语言指令。研究人员认为,整合了文本、音频、图像和视频等不同输入模式的多模态人工智能,是建立人工通用智能(AGI)的关键步骤,可以执行人类水平的一般任务。他们在一些测试中评估了Kosmos-1的能力,包括语言理解、语言生成、无光学字符识别的文本分类、图像说明、视觉问题回答、网页问题回答和零样本图像分类。微软称,在许多这些测试中,Kosmos-1的表现超过了目前最先进的模型。来源,来自:雷锋频道:@kejiqu群组:@kejiquchat投稿:@kejiqubot

封面图片

苹果研究人员开发了可以“看到”和理解屏幕上下文的人工智能

苹果研究人员开发了可以“看到”和理解屏幕上下文的人工智能根据周五发表的一篇,苹果研究人员开发了一个新的人工智能系统,可以理解对屏幕上实体的模糊引用以及对话和背景背景,从而能够与语音助理进行更自然的互动。该系统称为ReALM(参考分辨率作为语言建模),利用大型语言模型将参考分辨率的复杂任务(包括理解屏幕上对视觉元素的引用)转换为纯粹的语言建模问题。这使得ReALM能够与现有方法相比实现显著的性能提升。为了解决基于屏幕的引用,ReALM的一个关键创新是使用解析的屏幕中对象位置。研究人员证明,这种方法,结合专门用于参考分辨率的微调语言模型,在任务上可以优于GPT-4。线索:@ZaiHuabot投稿:@TNSubmbot频道:@TestFlightCN

封面图片

Google发布了一个生成式AI学习路径,包括8门课和2个测试,从技术原理、实现方式到应用场景和开发部署都包括,完全免费。

Google发布了一个生成式AI学习路径,包括8门课和2个测试,从技术原理、实现方式到应用场景和开发部署都包括,完全免费。1.:什么是生成式AI,有什么应用,和传统机器学习有什么不同。2.:什么是大语言模型(LLM),大语言模型的应用场景,以及提示词(prompt)和微调(fine-tuning)如何提升模型性能。3.:什么是负责任的AI(ResponsibleAI),为什么AI模型安全可靠且道德很重要,以及如何打造一个使用负责任AI的产品。4.:DiffusionModels图像生成模型理论、模型训练方法以及如何部署模型到云端5.:机器翻译、语音识别等任务广泛应用的encoder-decoder模型架构原理以及如何在TensorFlow中构建一个此架构的诗歌生成AI。6.:神经网络中的注意力机制(AttentionMechanism)如何在计算能力有限的情况下将计算资源分配给更重要的任务,提高翻译、总结、问答等性能。7.:自然语言处理中的预训练技术BERT(BidirectionalEncoderRepresentationsfromTransformers)的基础原理,以及其如何可以让AI在许多不同任务中的显著提升在上下文中理解无标记文本的能力。8.:学习图像理解和标注,学习如何构建出一个看图说话理解图片的人工智能模型。

封面图片

诺基亚面向旗下所有产品发布Pure UI - 全新的用户界面设计语言

诺基亚面向旗下所有产品发布PureUI-全新的用户界面设计语言新外观的一个主要组成部分是诺基亚Pure字体,它将被用于整个用户界面。新的图标也是为Pure设计的。它们以笔画为基础,笔画的粗细可以变化,以符合特定设备的显示要求和能力。当一个特定的组件需要吸引用户的注意力时,它们还包括流畅的动画。诺基亚Pure风格的图标是以几何形状为基础的,诺基亚团队还准备了标准元素,设计师可以用这些元素来快速构建外观一致的屏幕。应用程序屏幕将具有一致的外观,这要归功于PureIllustrations由于有了纯粹的插图,应用程序的屏幕将具有一致的外观。当然,也支持黑暗模式,元素和图标都会相应地调整它们的风格。到目前为止,诺基亚手机一直坚持接近原生Android系统的外观,但我们应该看到对采用PureUI的界面设计变化,不过,没有提到这将在多长时间内发生。诺基亚Pure适用于各种形式的显示器同样,这将在手机上使用,但其他设备也是如此--例如,NokiaPureUI拥有强大的组件,可用于构建复杂的基于网络的仪表板,该界面的设计可以从微小的腕戴式显示器扩展到大型壁挂式面板。...PC版:https://www.cnbeta.com.tw/articles/soft/1351835.htm手机版:https://m.cnbeta.com.tw/view/1351835.htm

封面图片

错别字别识大王:即使是将文本部全打乱,大型言语模型也能美完理解

错别字别识大王:即使是将文本部全打乱,大型言语模型也能美完理解当一段文本的顺序被打乱时,人类仍然能理解其中的含义,这种能力被称之为Typoglycemia(学界称之为Transposedletter效应)。而大型语言模型与人眼读取屏幕像素不同,它们看到的"词"是一个个整数tokenID序列,这些ID完全不同且无法识别。东京大学的研究员发现,以token为分词单位的大型语言模型居然也拥有这种能力。更令人惊讶的是,即使是将每个单词的所有字母完全打乱,GPT-4也表现出了几乎完美的重建能力,而这对于其它大型语言模型与人类来说都是艰难任务。https://arxiv.org/abs/2311.18805投稿:@TNSubmbot频道:@TestFlightCN

封面图片

Meta 开源发布可分割识别任意图像中主体的 SAM 模型

Meta开源发布可分割识别任意图像中主体的SAM模型已经理解了对象是什么的一般概念,可以直接对没见过的图像进行分割任务(识别像素属于哪个对象)。Meta还同时开源发布了比任何现有分割数据集大400倍的SA-1B数据集。SAM可以成为庞大AI系统的一部分,用于对世界进行多模态理解,例如理解图像和文本。SAM可以在AR/VR中根据用户的视线选择对象,进行识别查询或者3D建模。SAM可以进行智能抠图或视频后期。SAM还可用于地球与太空的科学任务,对动物和物体进行定位,例如细胞显微镜,牧场的动物识别,天体运行跟踪。——频道:@TestFlightCN

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人