苹果发布了专门用于理解应用 UI 界面的 MLLLM Ferret-UI 。

苹果发布了专门用于理解应用UI界面的MLLLMFerret-UI。专门针对移动UI屏幕进行了优化，具备了指向、定位和推理等多种能力。看来iOS18有可能会有类似通过Siri自动操作应用界面的能力？---------详细介绍---------Ferret-UI模型的介绍与特点：Ferret-UI是一个新的MLLM，专门为提高对移动UI屏幕的理解而设计。它具备引用、定位和推理能力，能够处理UI屏幕上的各种任务。Ferret-UI的一个关键特点是其“任何分辨率”（anyresolution）技术，该技术通过放大细节来解决UI屏幕中小型对象的识别问题，从而提高模型对UI元素的理解精度。移动用户界面（UI）屏幕的理解：UI屏幕的理解是一个复杂的问题，因为它不仅要求模型能够理解屏幕上的内容，还要能够识别和操作具体的UI元素。与传统的自然图像相比，UI屏幕通常具有更多的长宽比和更小的元素，这些元素对于模型来说是一个挑战。此外，UI屏幕的理解还涉及到对屏幕元素间关系的识别，以及对用户可能采取的行动的预测。“任何分辨率”（anyresolution）技术的应用：为了克服UI屏幕中的小对象识别问题，Ferret-UI采用了“任何分辨率”技术。该技术通过将屏幕分割成基于原始宽高比的子图像，并对每个子图像进行单独编码，从而在不丢失重要视觉信号的情况下放大细节。这种方法使得模型能够更准确地识别和理解UI屏幕上的小型对象。训练样本的收集与任务制定：Ferret-UI的训练涉及从基础UI任务到高级任务的广泛数据样本收集。这些样本被格式化为带有区域注释的指令遵循格式，以便于模型进行精确的引用和定位。此外，为了提高模型的推理能力，还特别编制了一个包含详细描述、感知/交互对话和功能推断等高级任务的数据集。模型架构与数据集的建立：Ferret-UI的架构基于Ferret模型，后者在自然图像的引用和定位任务中表现出色。为了适应UI屏幕的特点，Ferret-UI进行了架构调整，包括集成“任何分辨率”技术和使用预定义的网格配置来划分全图图像。此外，为了全面评估模型的能力，还建立了一个包含所有研究任务的综合测试基准。高级任务中的对话能力：Ferret-UI在高级任务中的对话能力表现突出，尤其是在详细描述和交互对话任务中。

在Telegram中查看

相关推荐

微软公布可以理解图像内容的 AI 模型

微软公布可以理解图像内容的AI模型微软的研究人员介绍了多模态模型，它可以分析图像内容，解决拼图问题，进行视觉文本识别，通过视觉智商测试，并理解自然语言指令。研究人员认为，整合了文本、音频、图像和视频等不同输入模式的多模态人工智能，是建立人工通用智能（AGI）的关键步骤，可以执行人类水平的一般任务。他们在一些测试中评估了Kosmos-1的能力，包括语言理解、语言生成、无光学字符识别的文本分类、图像说明、视觉问题回答、网页问题回答和零样本图像分类。微软称，在许多这些测试中，Kosmos-1的表现超过了目前最先进的模型。来源，来自：雷锋频道：@kejiqu群组：@kejiquchat投稿：@kejiqubot

苹果研究人员开发了可以“看到”和理解屏幕上下文的人工智能

苹果研究人员开发了可以“看到”和理解屏幕上下文的人工智能根据周五发表的一篇，苹果研究人员开发了一个新的人工智能系统，可以理解对屏幕上实体的模糊引用以及对话和背景背景，从而能够与语音助理进行更自然的互动。该系统称为ReALM（参考分辨率作为语言建模），利用大型语言模型将参考分辨率的复杂任务（包括理解屏幕上对视觉元素的引用）转换为纯粹的语言建模问题。这使得ReALM能够与现有方法相比实现显著的性能提升。为了解决基于屏幕的引用，ReALM的一个关键创新是使用解析的屏幕中对象位置。研究人员证明，这种方法，结合专门用于参考分辨率的微调语言模型，在任务上可以优于GPT-4。线索：@ZaiHuabot投稿：@TNSubmbot频道：@TestFlightCN

Google发布了一个生成式AI学习路径，包括8门课和2个测试，从技术原理、实现方式到应用场景和开发部署都包括，完全免费。

Google发布了一个生成式AI学习路径，包括8门课和2个测试，从技术原理、实现方式到应用场景和开发部署都包括，完全免费。1.：什么是生成式AI，有什么应用，和传统机器学习有什么不同。2.：什么是大语言模型（LLM），大语言模型的应用场景，以及提示词(prompt)和微调(fine-tuning)如何提升模型性能。3.：什么是负责任的AI(ResponsibleAI)，为什么AI模型安全可靠且道德很重要，以及如何打造一个使用负责任AI的产品。4.：DiffusionModels图像生成模型理论、模型训练方法以及如何部署模型到云端5.：机器翻译、语音识别等任务广泛应用的encoder-decoder模型架构原理以及如何在TensorFlow中构建一个此架构的诗歌生成AI。6.：神经网络中的注意力机制（AttentionMechanism）如何在计算能力有限的情况下将计算资源分配给更重要的任务，提高翻译、总结、问答等性能。7.：自然语言处理中的预训练技术BERT（BidirectionalEncoderRepresentationsfromTransformers）的基础原理，以及其如何可以让AI在许多不同任务中的显著提升在上下文中理解无标记文本的能力。8.：学习图像理解和标注，学习如何构建出一个看图说话理解图片的人工智能模型。

诺基亚面向旗下所有产品发布Pure UI - 全新的用户界面设计语言

诺基亚面向旗下所有产品发布PureUI-全新的用户界面设计语言新外观的一个主要组成部分是诺基亚Pure字体，它将被用于整个用户界面。新的图标也是为Pure设计的。它们以笔画为基础，笔画的粗细可以变化，以符合特定设备的显示要求和能力。当一个特定的组件需要吸引用户的注意力时，它们还包括流畅的动画。诺基亚Pure风格的图标是以几何形状为基础的，诺基亚团队还准备了标准元素，设计师可以用这些元素来快速构建外观一致的屏幕。应用程序屏幕将具有一致的外观，这要归功于PureIllustrations由于有了纯粹的插图，应用程序的屏幕将具有一致的外观。当然，也支持黑暗模式，元素和图标都会相应地调整它们的风格。到目前为止，诺基亚手机一直坚持接近原生Android系统的外观，但我们应该看到对采用PureUI的界面设计变化，不过，没有提到这将在多长时间内发生。诺基亚Pure适用于各种形式的显示器同样，这将在手机上使用，但其他设备也是如此--例如，NokiaPureUI拥有强大的组件，可用于构建复杂的基于网络的仪表板，该界面的设计可以从微小的腕戴式显示器扩展到大型壁挂式面板。...PC版：https://www.cnbeta.com.tw/articles/soft/1351835.htm手机版：https://m.cnbeta.com.tw/view/1351835.htm

错别字别识大王：即使是将文本部全打乱，大型言语模型也能美完理解

错别字别识大王：即使是将文本部全打乱，大型言语模型也能美完理解当一段文本的顺序被打乱时，人类仍然能理解其中的含义，这种能力被称之为Typoglycemia(学界称之为Transposedletter效应)。而大型语言模型与人眼读取屏幕像素不同，它们看到的"词"是一个个整数tokenID序列，这些ID完全不同且无法识别。东京大学的研究员发现，以token为分词单位的大型语言模型居然也拥有这种能力。更令人惊讶的是，即使是将每个单词的所有字母完全打乱，GPT-4也表现出了几乎完美的重建能力，而这对于其它大型语言模型与人类来说都是艰难任务。https://arxiv.org/abs/2311.18805投稿：@TNSubmbot频道：@TestFlightCN

Meta 开源发布可分割识别任意图像中主体的 SAM 模型

Meta开源发布可分割识别任意图像中主体的SAM模型已经理解了对象是什么的一般概念，可以直接对没见过的图像进行分割任务(识别像素属于哪个对象)。Meta还同时开源发布了比任何现有分割数据集大400倍的SA-1B数据集。SAM可以成为庞大AI系统的一部分，用于对世界进行多模态理解，例如理解图像和文本。SAM可以在AR/VR中根据用户的视线选择对象，进行识别查询或者3D建模。SAM可以进行智能抠图或视频后期。SAM还可用于地球与太空的科学任务，对动物和物体进行定位，例如细胞显微镜，牧场的动物识别，天体运行跟踪。——频道：@TestFlightCN

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人