苹果公司旗下研究团队近日

苹果公司旗下研究团队近日 在 ArXiv 中公布了一篇名为《MM1:Methods, Analysis & Insights from Multimodal LLM Pre-training》的论文,其中介绍了一款 “MM1”多模态大模型,该模型提供 30 亿、70 亿、300 亿三种参数规模,拥有图像识别和自然语推理能力。 苹果研究团队相关论文主要是利用 MM1 模型做实验,通过控制各种变量,找出影响模型效果的关键因素。 研究表明,图像分辨率和图像标记数量对模型性能影响较大,视觉语言连接器对模型的影响较小,不同类型的预训练数据对模型的性能有不同的影响。 据介绍,研究团队首先在模型架构决策和预训练数据上进行小规模消融实验。之后利用混合专家(Mixture of Experts)架构及一种名为 Top-2 Gating 的方法构建了 MM1 模型,号称不仅在预训练指标中实现了最好的性能表现,在一系列已有多模态基准上监督微调后也能保持有竞争力的性能。 研究人员对“MM1”模型进行了测试,号称 MM1-3B-Chat 和 MM1-7B-Chat 优于市面上绝大多数相同规模的模型。MM1-3B-Chat 和 MM1-7B-Chat 在 VQAv2、TextVQA、ScienceQA、MMBench、MMMU 和 MathVista 中表现尤为突出,但是整体表现不如谷歌的 Gemini 和 OpenAI 的 GPT-4V。 ArXiv 论文地址: via 匿名 标签: #Apple #AI #MM1 频道: @GodlyNews1 投稿: @GodlyNewsBot

相关推荐

封面图片

苹果推出300亿参数多模态大模型 全面转向生成式AI

苹果推出300亿参数多模态大模型 全面转向生成式AI 就在近日,苹果公司研发团队发布了一篇论文《MM1: Methods, Analysis & Insights from Multimodal LLM Pre-training》,首次公布了多模态大模型MM1,展示了该公司在AI方面的进展与实力。据悉,MM1最高参数量为300亿,该模型支持增强的上下文学习和多图像推理,在一些多模态基准测试中有较好表现。研究人员使用这些模型进行实验,找出影响大模型表现的关键因素。有趣的是,图像分辨率和图像标签数量比视觉语言连接器的影响更大,不同的预训练数据集会显著影响模型的有效性。MM1的独特之处在于其庞大的规模和架构创新,包括密集的模型和混合专家模型。这些模型证明了研究人员方法的有效性,将大规模预训练与战略性数据选择相结合,以增强模型的学习能力。研发团队称,MM1不仅在预训练指标中是“最先进的”,并且在一系列已建立的多模态基准测试中,经过微调后也保持了“有竞争力的”性能。MM1可以支持增强的上下文学习和多图像推理,使得少数样本的思维链提示成为可能。然而,目前MM1的整体性能还没有完全超过谷歌的Gemini和OpenAI的GPT-4,虽然MM1可能还不是绝对的领导者,但它仍然是苹果在AI方面的一次重大飞跃。与此同时,苹果公司还出手收购了AI初创公司DarwinAI。DarwinAI以创建更小、更快的AI系统见长,这是实现设备上高效处理的关键因素。收购完成后,DarwinAI的网站和社交媒体账户已悄然下线。据悉,数十名DarwinAI员工已经加入了苹果的AI部门,作为交易的一部分,滑铁卢大学的AI研究员Alexander Wong已加入苹果,担任AI团队的总监。 ... PC版: 手机版:

封面图片

苹果公司发表四款开源新模型 有助于提高未来人工智能的准确性

苹果公司发表四款开源新模型 有助于提高未来人工智能的准确性 这些指导模型被称为开源高效 LLMs 或 OpenELMs,托管在协作平台 Hugging Face 上。Hugging Face 用于托管人工智能模型,以及对其进行训练和与他人合作改进。OpenELM 是指一个开源库,它利用进化算法将多个大型语言模型 (LLM) 结合在一起。这四个 OpenELM 模型采用"分层缩放策略",在变压器机器学习模型的各层中分配参数,以提高精确度。这些模型使用 CoreNet 库进行了预训练。苹果公司提供了使用 2.7 亿、4.5 亿、11 亿和 30 亿个参数的预训练和指令调整模型。预训练数据集由 Dolma v1.6 子集、RefinedWeb、重复 PILE 和 RedPajama 子集组合而成。这样得到的数据集约有 1.8 万亿个标记。在本周二发布的一篇相关论文中,该项目的研究人员表示,大型语言模型的可重复性和透明度"对于推进开放式研究至关重要"。它还有助于确保结果的可信度,并允许对模型偏差和风险进行调查。至于模型的准确性,据解释,在使用 10 亿个参数预算的情况下,OpenELM 比 OLMo 的准确性提高了 2.36%,而所需的预训练代币数量仅为 OLMo 的一半。模型和论文的作者包括 Sachin Mehta、Mohammad Hossein Sekhavat、Qingqing Cao、Maxwell Horton、Yanzi Jin、Chenfan Sun、Iman Mirzadeh、Mahyar Najibi、Dmitry Belenko、Peter Zatloukal 和 Mohammad Rastegari。发布这些模型的源代码是苹果公司宣传其人工智能和机器学习发展成果的最新尝试。这并不是苹果公司第一次公开发布人工智能程序。今年10 月,苹果分享了一个名为 Ferret 的开源 LLM,它改进了模型分析图像的方式。今年 4 月,Ferret 的新版本增加了解析应用程序截图中数据点的功能,并能大致了解应用程序的功能。此外,还发布了关于生成式人工智能动画工具和创建人工智能头像的论文。预计 6 月份的 WWDC 将包括苹果产品在人工智能方面的许多进展。 ... PC版: 手机版:

封面图片

苹果研究人员探索放弃“Siri”短语,改用人工智能聆听

苹果研究人员探索放弃“Siri”短语,改用人工智能聆听 据周五 (3月22日) 发表的一篇论文称,苹果公司的研究人员正在研究是否有可能利用 AI 来检测用户何时在对 iPhone 等设备说话,从而消除对“Siri”等触发短语的技术需求。在一项上传到 Arxiv 且未经同行评审的研究中,研究人员使用智能手机捕获的语音以及来背景噪声的声学数据来训练一个大型语言模型,以寻找可能表明用户何时需要设备帮助的模式。论文中研究人员写道:“该模型部分基于 OpenAI 的 GPT-2 版本构建,因为它相对轻量级,可以在智能手机等设备上运行。”论文描述了用于训练模型的超过129小时的数据和额外的文本数据,但没有说明训练集的录音来源。据领英个人资料,七位作者中有六位列出他们的隶属关系为苹果公司,其中三人在该公司的 Siri 团队工作。论文称,结果令人鼓舞。该模型能够比纯音频或纯文本模型做出更准确的预测,并且随着模型规模的扩大而进一步改进。 、

封面图片

分析师称苹果公司专注于本地AI模型和授权LLM可能是一个制胜组合

分析师称苹果公司专注于本地AI模型和授权LLM可能是一个制胜组合 根据摩根大通的一份说明,苹果在开发小型本地机型的同时,可能会与一家 LLM 提供商合作,这可能会帮助苹果领先于其他制造商。如果报道属实,苹果将专注于自己的强项,如设备上的处理,而不是建立专有的 LLM。最近有报道称,苹果公司正在与Google洽谈授权其 Gemini LLM 用于iPhone 的事宜。就在该报道发布的前一天,苹果公司发表了一篇关于 MM1 的研究论文,MM1 是一种较小的预训练模型,可以在用户的 iPhone 上本地运行。摩根大通的报道表明,苹果公司双管齐下的做法可能会让它占得先机。苹果可以专注于保护用户隐私的小型设备模型,而不是发布依赖于网络数据的有争议的 LLM,客户将获得两者的最佳利益。如果这听起来很熟悉,那么它很像苹果与Google达成的搜索协议。Google将成为默认的网络搜索引擎,而苹果则提供一个名为 Spotlight 的强大而私密的本地搜索工具。更多的证据证实了苹果公司的计划,有消息称苹果公司内部有一款名为 Ask 的工具,可以在本地知识数据库中进行训练。它比 LLM更具适应性,能灵活应对数据库的变化,而 MM1 模型应能胜任这些工作。该报告重点介绍了苹果公司采用这种方法取得的财务成功,认为这种方法节省了基础设施建设成本,并为消费者带来了更好的应用体验。摩根大通维持对苹果的增持评级,目标价为 215 美元。 ... PC版: 手机版:

封面图片

苹果公司开发了一种新的生成式人工智能工具 用于制作图像与动画

苹果公司开发了一种新的生成式人工智能工具 用于制作图像与动画 现在又有一篇研究论文发表了,这次是苹果公司的三位研究人员对一款"使用大型语言模型增强动画设计能力"的应用程序进行了研究和测试。这款名为 Keyframer 的人工智能应用程序可以让用户描述动画,然后为网站生成 CSS 动画代码。Keyframer 尚未公开发布,其测试似乎也相当有限。三位研究人员 Tiffany Tseng、Ruijia Cheng 和 Jeffrey Nichols 写道,他们的研究主要基于 13 位参与者。这些参与者首先用简单的英语描述了他们想要的图像。到目前为止,Adobe Firefly AI 也是这样工作的。然而,在 Firefly 和类似的现有应用程序中,一旦生成图像,用户只能使用应用程序的手动控制来调整或增强图像。苹果 Keyframer 的设计目的是让用户通过继续描述他们需要什么或想要删除什么来反复修改设计。具体来说,该论文将之前在生成式人工智能图像方面的尝试描述为"一次性提示界面"。相比之下,Keyframer 的设计让用户可以在同一幅图像上持续提示多次。研究论文中的细节,显示在用户描述后自动生成的代码一位新手在使用 Keyframer 之后说:"这真是太神奇了,因为我根本不可能手动制作这样的动画......如果没有这个工具,我甚至不知道该从何下手。"一位专业动画师对研究人员说:"我有些担心这些工具会取代工作,因为潜力实在太大了。但我认为,作为一名动画师,了解这些工具并使用它们,只是我们工具箱中的另一种工具而已。""这只会提高我们的技能,"他或她继续说。"这真是令人兴奋的事情"。虽然研究论文 - 31 页、16000 字的文件已经发表,但 Keyframer 本身尚未发布,只是一款内部测试应用。不过,它的存在证实了苹果公司一直在广泛测试生成式人工智能的说法。据传,苹果公司将在 2024 年WWDC大会上公布 iOS 和Siri 等产品在人工智能方面的重大改进。 ... PC版: 手机版:

封面图片

苹果挖走谷歌员工组建人工智能团队

苹果挖走谷歌员工组建人工智能团队 苹果公司从谷歌挖来了数十名人工智能专家,并在苏黎世建立了一个秘密的欧洲实验室,并正在组建一个团队,在开发新的人工智能模型和产品方面与竞争对手竞争。根据英国金融时报对数百份领英个人资料以及公开招聘和研究论文的分析,自2018年挖来约翰•詹南德里亚担任其人工智能高管以来,这家公司从竞争对手那里吸引了至少36名专家。虽然苹果公司人工智能团队的大部分人员都在加利福尼亚州和西雅图的办公室工作,但该公司还在苏黎世扩建了一个重要的前哨基地。苹果公司收购了两家当地的人工智能初创企业,虚拟现实集团 FaceShift 和图像识别公司 Fashwell,这促使苹果公司在该市建立了一个研究实验室,被称为“视觉实验室”。驻苏黎世的员工参与了苹果对底层技术的研究,他们的论文集中在更先进的人工智能模型上,这些模型结合了文本和视觉输入,以对查询产生响应。 ()

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人