Apple发布大模型论文：多模式LLM预培训的方法、分析和见解

Apple发布大模型论文：多模式LLM预培训的方法、分析和见解2024年3月14日，苹果公司发布了自家的大型多模态基础模型MM1，该模型拥有高达300亿参数，并采用混合专家（MoE）架构。超过半数的论文作者是华人。MM1模型在多模态任务上显示出强大的性能，尤其是在少样本学习和上下文预测方面。研究团队通过对不同架构组件和数据选择的深入分析，提出了几条关键的设计准则。他们发现，图像分辨率、视觉编码器损失和容量，以及预训练数据的类型对模型性能有显著影响。MM1模型的开发，标志着苹果在生成式人工智能领域的重要进展。线索：@ZaiHuabot投稿：@TNSubmbot频道：@TestFlightCN

在Telegram中查看

相关推荐

【#苹果推出300亿参数MM1多模态大模型，可识别图像推理自然语言】近日，在一篇由多位作者署名的论文《MM1:Methods,A

【#苹果推出300亿参数MM1多模态大模型，可识别图像推理自然语言】近日，在一篇由多位作者署名的论文《MM1:Methods,Analysis&InsightsfromMultimodalLLMPre-training》中，苹果正式公布自家的多模态大模型研究成果——这是一个具有高达300亿（其他为30亿、70亿）的多模态模型系列，它由密集模型和混合专家（MoE）变体组成，不仅在预训练指标中实现SOTA，在一系列已有多模态基准上监督微调后也能保持有竞争力的性能。MM1多模态大模型拥有图像识别和自然语言推理能力。（IT之家）

苹果推出 300 亿参数 MM1 多模态 AI 大模型，可识别图像推理自然语言

苹果公司旗下研究团队近日在 ArXiv 中公布了一篇名为《MM1：Methods， Analysis&InsightsfromMultimodalLLMPre-training》的论文，其中介绍了一款“MM1”多模态大模型，该模型提供 30亿、70亿、300亿三种参数规模，拥有图像识别和自然语推理能力。苹果研究团队相关论文主要是利用MM1 模型做实验，通过控制各种变量，找出影响模型效果的关键因素。研究表明，图像分辨率和图像标记数量对模型性能影响较大，视觉语言连接器对模型的影响较小，不同类型的预训练数据对模型的性能有不同的影响。据介绍，研究团队首先在模型架构决策和预训练数据上进行小规模消融实验。之后利用混合专家（MixtureofExperts）架构及一种名为Top-2Gating的方法构建了MM1模型，号称不仅在预训练指标中实现了最好的性能表现，在一系列已有多模态基准上监督微调后也能保持有竞争力的性能。研究人员对“MM1”模型进行了测试，号称 MM1-3B-Chat 和 MM1-7B-Chat 优于市面上绝大多数相同规模的模型。MM1-3B-Chat 和 MM1-7B-Chat 在 VQAv2、TextVQA、ScienceQA、MMBench、MMMU 和MathVista中表现尤为突出，但是整体表现不如谷歌的Gemini和OpenAI的GPT-4V。ArXiv论文地址：https://arxiv.org/pdf/2403.09611.pdfvia匿名标签:#Apple#AI#MM1频道:@GodlyNews1投稿:@GodlyNewsBot

苹果推出300亿参数多模态大模型全面转向生成式AI

苹果推出300亿参数多模态大模型全面转向生成式AI就在近日，苹果公司研发团队发布了一篇论文《MM1：Methods，Analysis&InsightsfromMultimodalLLMPre-training》，首次公布了多模态大模型MM1，展示了该公司在AI方面的进展与实力。据悉，MM1最高参数量为300亿，该模型支持增强的上下文学习和多图像推理，在一些多模态基准测试中有较好表现。研究人员使用这些模型进行实验，找出影响大模型表现的关键因素。有趣的是，图像分辨率和图像标签数量比视觉语言连接器的影响更大，不同的预训练数据集会显著影响模型的有效性。MM1的独特之处在于其庞大的规模和架构创新，包括密集的模型和混合专家模型。这些模型证明了研究人员方法的有效性，将大规模预训练与战略性数据选择相结合，以增强模型的学习能力。研发团队称，MM1不仅在预训练指标中是“最先进的”，并且在一系列已建立的多模态基准测试中，经过微调后也保持了“有竞争力的”性能。MM1可以支持增强的上下文学习和多图像推理，使得少数样本的思维链提示成为可能。然而，目前MM1的整体性能还没有完全超过谷歌的Gemini和OpenAI的GPT-4，虽然MM1可能还不是绝对的领导者，但它仍然是苹果在AI方面的一次重大飞跃。与此同时，苹果公司还出手收购了AI初创公司DarwinAI。DarwinAI以创建更小、更快的AI系统见长，这是实现设备上高效处理的关键因素。收购完成后，DarwinAI的网站和社交媒体账户已悄然下线。据悉，数十名DarwinAI员工已经加入了苹果的AI部门，作为交易的一部分，滑铁卢大学的AI研究员AlexanderWong已加入苹果，担任AI团队的总监。...PC版：https://www.cnbeta.com.tw/articles/soft/1424021.htm手机版：https://m.cnbeta.com.tw/view/1424021.htm

近日，在一篇由多位作者署名的论文《MM1:Methods,Analysis&InsightsfromMultimodalLLMP

近日，在一篇由多位作者署名的论文《MM1:Methods,Analysis&InsightsfromMultimodalLLMPre-training》中，苹果正式公布自家的多模态大模型研究成果——这是一个具有高达300亿（其他为30亿、70亿）的多模态模型系列，它由密集模型和混合专家（MoE）变体组成，不仅在预训练指标中实现SOTA，在一系列已有多模态基准上监督微调后也能保持有竞争力的性能。MM1多模态大模型拥有图像识别和自然语言推理能力。（IT之家）

TencentPretrain：腾讯预训练模型框架

TencentPretrain：腾讯预训练模型框架预训练已经成为人工智能技术的重要组成部分，为大量人工智能相关任务带来了显著提升。TencentPretrain是一个用于对文本、图像、语音等模态数据进行预训练和微调的工具包。TencentPretrain遵循模块化的设计原则。通过模块的组合，用户能迅速精准的复现已有的预训练模型，并利用已有的接口进一步开发更多的预训练模型。通过TencentPretrain，我们建立了一个模型仓库，其中包含不同性质的预训练模型（例如基于不同模态、编码器、目标任务）。用户可以根据具体任务的要求，从中选择合适的预训练模型使用。TencentPretrain继承了的部分工作，并在其基础上进一步开发，形成支持多模态的预训练模型框架。TencentPretrain有如下几方面优势:可复现TencentPretrain已在许多数据集上进行了测试，与原始预训练模型实现（例如BERT、GPT-2、ELMo、T5、CLIP）的表现相匹配模块化TencentPretrain使用解耦的模块化设计框架。框架分成Embedding、Encoder、Target等多个部分。各个部分之间有着清晰的接口并且每个部分包括了丰富的模块。可以对不同模块进行组合，构建出性质不同的预训练模型多模态TencentPretrain支持文本、图像、语音模态的预训练模型，并支持模态之间的翻译、融合等操作模型训练TencentPretrain支持CPU、单机单GPU、单机多GPU、多机多GPU训练模式，并支持使用DeepSpeed优化库进行超大模型训练模型仓库我们维护并持续发布预训练模型。用户可以根据具体任务的要求，从中选择合适的预训练模型使用SOTA结果TencentPretrain支持全面的下游任务，包括文本/图像分类、序列标注、阅读理解、语音识别等，并提供了多个竞赛获胜解决方案预训练相关功能TencentPretrain提供了丰富的预训练相关的功能和优化，包括特征抽取、近义词检索、预训练模型转换、模型集成、文本生成等#框架

苹果开放 AI 研究成果，发布多模态 LLM 模型 Ferret

苹果开放AI研究成果，发布多模态LLM模型Ferret苹果公司工作的研究人员和来自哥伦比亚大学的研究人员在10月份悄然推出了开源多模态LLM，这是一个名为"Ferret"的研究版本，可以使用图像区域进行查询。Ferret于10月份在Github上发布，在很大程度上没有引起人们的注意，也没有发布任何公开发布或宣传操作。Ferret的代码于10月30日与Ferret-Bench一起发布，并于12月14日推出了检查点版本。该模型可以分析图像上绘制的区域，确定其中对用户查询有用的元素，并将其识别出来，在检测到的元素周围绘制一个边界框。然后，它就可以将识别出的元素用作查询的一部分，并以典型的方式作出响应。从Github发布的信息中可以发现一个有趣的现象，Reddit的r/Apple发现Ferret是"在8个A100GPU和80GB内存上进行训练的"。鉴于苹果对NVIDIAGPU支持的历史，这被认为是对GPU生产商的罕见认可。投稿：@TNSubmbot频道：@TestFlightCN

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人