苹果开发出新款AI:能"看懂"屏幕上内容并用语音回复

苹果开发出新款AI:能"看懂"屏幕上内容并用语音回复 这个系统被命名为ReALM(Reference Resolution As Language Modeling,即以语言建模为基础的参考解析),它通过大语言模型的运用,将理解屏幕视觉元素指向的复杂任务转化为一个纯粹的语言问题。这一转换使得ReALM在性能上相较于现有技术有了显著的提升。苹果研究团队强调:“让对话助手能够理解上下文,包括相关的内容指向,非常关键。能让用户根据他们所看到的屏幕内容进行提问,是确保真正实现语音操作体验的重要一步。”增强对话助手的能力ReALM的一大创新在于它能够重新构建屏幕内容,即通过分析屏幕上的信息及其位置信息来生成文本表示,这一点对捕捉视觉布局至关重要。研究人员展示了这种方法与专为内容指向调整的语言模型结合起来,能在执行相关任务时超越GPT-4的性能。研究人员表示:“我们对现有系统进行了显著改进,在处理多种类型的内容指向时均展现出卓越性能。我们的最小模型就实现了超过5%的性能提升,而大型模型的表现则明显超过了GPT-4。”实际应用与局限性这项研究凸显了专注于语言模型在处理如内容指向解析等任务上的巨大潜力。由于响应时间或计算资源的限制,大型端到端模型往往难以实施。通过这项创新性研究,苹果展现了其持续投入,使Siri等产品在对话和理解上下文方面更加出色。尽管如此,研究人员也指出,依靠自动化解析屏幕内容仍然面临挑战。在处理更复杂的视觉内容,比如区分多个相似图像时,可能需要结合计算机视觉和多模态技术。努力缩小与AI竞争对手差距虽然在人工智能领域苹果曾稍显落后,但它正在默默取得显著进展。从融合视觉与语言的多模态模型,到开发AI驱动的动画工具,再到构建高性能的专业AI技术,苹果的研究实验室持续实现技术突破。面对谷歌、微软、亚马逊和OpenAI等公司的激烈竞争这些公司已在搜索、办公软件、云服务等领域推出了先进的AI产品作为一个以保密闻名的科技巨头,苹果正努力不落人后。长期以来,苹果更多在创新领域扮演跟随者而不是领先者的角色,现在正面临着一个由人工智能快速改变的市场。在6月举办的全球开发者大会上,苹果预计将推出新的大语言模型框架、“AppleGPT”聊天机器人及其生态系统中的其他AI功能。“我们很高兴今年晚些时候分享我们在人工智能方面的工作进展,”首席执行官蒂姆·库克(TimCook)最近在一次盈利电话会议上暗示。尽管苹果向来低调,但其在AI领域的广泛努力已经引起了业界的广泛关注。然而,在日益激烈的人工智能领域竞争中,苹果的相对滞后使其处于不利地位。但凭借其雄厚的资金实力、品牌忠诚度、一流的工程师团队和紧密整合的产品线,苹果仍有机会扭转局面。(小小) ... PC版: 手机版:

相关推荐

封面图片

苹果计划于5月推出新款 iPad Pro

苹果计划于5月推出新款 iPad Pro 据知情人士透露,苹果公司的海外供应商已经提高了该公司期待已久的新 iPad 的产量,并计划于5月初推出。知情人士表示,这次发布将集中在 iPad Pro 和 iPad Air 的改进版本上。Pro 机型将配备 OLED 显示屏,而 iPad Air 将首次配备 12.9 英寸屏幕。苹果原计划在3月底或4月初发布新款 iPad,但该公司一直在努力完成这些设备的软件。最新型号的屏幕还需要复杂的新制造技术,这导致了延迟。

封面图片

苹果公司旗下研究团队近日

苹果公司旗下研究团队近日 在 ArXiv 中公布了一篇名为《MM1:Methods, Analysis & Insights from Multimodal LLM Pre-training》的论文,其中介绍了一款 “MM1”多模态大模型,该模型提供 30 亿、70 亿、300 亿三种参数规模,拥有图像识别和自然语推理能力。 苹果研究团队相关论文主要是利用 MM1 模型做实验,通过控制各种变量,找出影响模型效果的关键因素。 研究表明,图像分辨率和图像标记数量对模型性能影响较大,视觉语言连接器对模型的影响较小,不同类型的预训练数据对模型的性能有不同的影响。 据介绍,研究团队首先在模型架构决策和预训练数据上进行小规模消融实验。之后利用混合专家(Mixture of Experts)架构及一种名为 Top-2 Gating 的方法构建了 MM1 模型,号称不仅在预训练指标中实现了最好的性能表现,在一系列已有多模态基准上监督微调后也能保持有竞争力的性能。 研究人员对“MM1”模型进行了测试,号称 MM1-3B-Chat 和 MM1-7B-Chat 优于市面上绝大多数相同规模的模型。MM1-3B-Chat 和 MM1-7B-Chat 在 VQAv2、TextVQA、ScienceQA、MMBench、MMMU 和 MathVista 中表现尤为突出,但是整体表现不如谷歌的 Gemini 和 OpenAI 的 GPT-4V。 ArXiv 论文地址: via 匿名 标签: #Apple #AI #MM1 频道: @GodlyNews1 投稿: @GodlyNewsBot

封面图片

苹果推出300亿参数多模态大模型 全面转向生成式AI

苹果推出300亿参数多模态大模型 全面转向生成式AI 就在近日,苹果公司研发团队发布了一篇论文《MM1: Methods, Analysis & Insights from Multimodal LLM Pre-training》,首次公布了多模态大模型MM1,展示了该公司在AI方面的进展与实力。据悉,MM1最高参数量为300亿,该模型支持增强的上下文学习和多图像推理,在一些多模态基准测试中有较好表现。研究人员使用这些模型进行实验,找出影响大模型表现的关键因素。有趣的是,图像分辨率和图像标签数量比视觉语言连接器的影响更大,不同的预训练数据集会显著影响模型的有效性。MM1的独特之处在于其庞大的规模和架构创新,包括密集的模型和混合专家模型。这些模型证明了研究人员方法的有效性,将大规模预训练与战略性数据选择相结合,以增强模型的学习能力。研发团队称,MM1不仅在预训练指标中是“最先进的”,并且在一系列已建立的多模态基准测试中,经过微调后也保持了“有竞争力的”性能。MM1可以支持增强的上下文学习和多图像推理,使得少数样本的思维链提示成为可能。然而,目前MM1的整体性能还没有完全超过谷歌的Gemini和OpenAI的GPT-4,虽然MM1可能还不是绝对的领导者,但它仍然是苹果在AI方面的一次重大飞跃。与此同时,苹果公司还出手收购了AI初创公司DarwinAI。DarwinAI以创建更小、更快的AI系统见长,这是实现设备上高效处理的关键因素。收购完成后,DarwinAI的网站和社交媒体账户已悄然下线。据悉,数十名DarwinAI员工已经加入了苹果的AI部门,作为交易的一部分,滑铁卢大学的AI研究员Alexander Wong已加入苹果,担任AI团队的总监。 ... PC版: 手机版:

封面图片

苹果取得技术突破:有望在 iPhone 上运行大型语言模型

苹果取得技术突破:有望在 iPhone 上运行大型语言模型 IT之家消息:苹果的人工智能研究人员表示,他们已取得一项重大突破,通过一种创新的闪存利用技术,成功地在内存有限的苹果设备上部署了大型语言模型(LLM)。这一成果有望让更强大的 Siri、实时语言翻译以及融入摄影和增强现实的尖端 AI 功能登陆未来 iPhone。|

封面图片

苹果的AI训练"突破"保护了隐私 同时让LLM的学习更灵活

苹果的AI训练"突破"保护了隐私 同时让LLM的学习更灵活 该公司本周早些时候在研究网站上发布的一篇研究论文显示,苹果公司使用了一种所谓的"精心混合"图像字幕、交错图像文本和纯文本数据来训练 LLM。视觉和语言数据的混合使模型能够处理智能地为图像添加标题或推断自然语言含义等任务。研究发现,图像编码器的选择及其处理图像的分辨率对性能的影响比视觉语言连接器的设计更大。在一个使用 300 亿参数 MM1 模型的实例中,研发人员发现了强大的上下文学习能力。这一发现意味着,只需很少的"思维链"提示,它就能对多幅图像进行多步骤推理。据 Venturebeat 报道,在突破性技术方面,苹果公司正在延续其"快速追随者"而非"先行者"的传统。首席执行官蒂姆-库克(Tim Cook)最近承认,公司每年花费 10 亿美元将"人工智能"融入现有技术。库克表示,公司将在今年晚些时候分享"我们正在进行的人工智能工作的细节"。预计苹果公司将在今年 6 月的 WWDC 大会上宣布一些进展情况。在使用人工智能相关技术方面,该公司正在追赶竞争对手。它还在开发既能保护用户隐私,又能增强现有机器学习能力的方法。后一种对隐私和安全的担忧并不是现有"聊天机器人"类型服务的特点,这也增加了苹果面临的挑战。苹果公司对神经网络的多模型训练很感兴趣,并因此获得了最先进的性能,可以进行多步推理。这表明,该公司已经找到了一条快速提升机器学习能力并赋予其高级"智能"能力的道路。阅读文献了解更多: ... PC版: 手机版:

封面图片

iPhone 13在更换屏幕后Face ID被禁用,因为苹果加了个微控制芯片

iPhone 13在更换屏幕后Face ID被禁用,因为苹果加了个微控制芯片 拆解网站iFixit研究发现,这次苹果在iPhone 13上通过一块硬件芯片绑定了屏幕和主板,所以在更换了第三方屏幕后,Face ID会被禁用,如果需要启用,就必须从原来的屏幕上面移植那块芯片到新的屏幕上,这个操作就给第三方维修商带来了很大困难,他们需要购置一套可以微焊接设备,又或者加入到苹果的独立维修计划里面去,获得原装屏幕供货

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人