苹果研究人员开发了可以“看到”和理解屏幕上下文的人工智能
苹果研究人员开发了可以“看到”和理解屏幕上下文的人工智能根据周五发表的一篇,苹果研究人员开发了一个新的人工智能系统,可以理解对屏幕上实体的模糊引用以及对话和背景背景,从而能够与语音助理进行更自然的互动。该系统称为ReALM(参考分辨率作为语言建模),利用大型语言模型将参考分辨率的复杂任务(包括理解屏幕上对视觉元素的引用)转换为纯粹的语言建模问题。这使得ReALM能够与现有方法相比实现显著的性能提升。为了解决基于屏幕的引用,ReALM的一个关键创新是使用解析的屏幕中对象位置。研究人员证明,这种方法,结合专门用于参考分辨率的微调语言模型,在任务上可以优于GPT-4。线索:@ZaiHuabot投稿:@TNSubmbot频道:@TestFlightCN