【#苹果推出300亿参数MM1多模态大模型，可识别图像推理自然语言】近日，在一篇由多位作者署名的论文《MM1:Methods,A

【#苹果推出300亿参数MM1多模态大模型，可识别图像推理自然语言】近日，在一篇由多位作者署名的论文《MM1:Methods,Analysis&InsightsfromMultimodalLLMPre-training》中，苹果正式公布自家的多模态大模型研究成果——这是一个具有高达300亿（其他为30亿、70亿）的多模态模型系列，它由密集模型和混合专家（MoE）变体组成，不仅在预训练指标中实现SOTA，在一系列已有多模态基准上监督微调后也能保持有竞争力的性能。MM1多模态大模型拥有图像识别和自然语言推理能力。（IT之家）

在Telegram中查看

相关推荐

近日，在一篇由多位作者署名的论文《MM1:Methods,Analysis&InsightsfromMultimodalLLMP

近日，在一篇由多位作者署名的论文《MM1:Methods,Analysis&InsightsfromMultimodalLLMPre-training》中，苹果正式公布自家的多模态大模型研究成果——这是一个具有高达300亿（其他为30亿、70亿）的多模态模型系列，它由密集模型和混合专家（MoE）变体组成，不仅在预训练指标中实现SOTA，在一系列已有多模态基准上监督微调后也能保持有竞争力的性能。MM1多模态大模型拥有图像识别和自然语言推理能力。（IT之家）

苹果推出 300 亿参数 MM1 多模态 AI 大模型，可识别图像推理自然语言

苹果公司旗下研究团队近日在 ArXiv 中公布了一篇名为《MM1：Methods， Analysis&InsightsfromMultimodalLLMPre-training》的论文，其中介绍了一款“MM1”多模态大模型，该模型提供 30亿、70亿、300亿三种参数规模，拥有图像识别和自然语推理能力。苹果研究团队相关论文主要是利用MM1 模型做实验，通过控制各种变量，找出影响模型效果的关键因素。研究表明，图像分辨率和图像标记数量对模型性能影响较大，视觉语言连接器对模型的影响较小，不同类型的预训练数据对模型的性能有不同的影响。据介绍，研究团队首先在模型架构决策和预训练数据上进行小规模消融实验。之后利用混合专家（MixtureofExperts）架构及一种名为Top-2Gating的方法构建了MM1模型，号称不仅在预训练指标中实现了最好的性能表现，在一系列已有多模态基准上监督微调后也能保持有竞争力的性能。研究人员对“MM1”模型进行了测试，号称 MM1-3B-Chat 和 MM1-7B-Chat 优于市面上绝大多数相同规模的模型。MM1-3B-Chat 和 MM1-7B-Chat 在 VQAv2、TextVQA、ScienceQA、MMBench、MMMU 和MathVista中表现尤为突出，但是整体表现不如谷歌的Gemini和OpenAI的GPT-4V。ArXiv论文地址：https://arxiv.org/pdf/2403.09611.pdfvia匿名标签:#Apple#AI#MM1频道:@GodlyNews1投稿:@GodlyNewsBot

苹果推出300亿参数多模态大模型全面转向生成式AI

苹果推出300亿参数多模态大模型全面转向生成式AI就在近日，苹果公司研发团队发布了一篇论文《MM1：Methods，Analysis&InsightsfromMultimodalLLMPre-training》，首次公布了多模态大模型MM1，展示了该公司在AI方面的进展与实力。据悉，MM1最高参数量为300亿，该模型支持增强的上下文学习和多图像推理，在一些多模态基准测试中有较好表现。研究人员使用这些模型进行实验，找出影响大模型表现的关键因素。有趣的是，图像分辨率和图像标签数量比视觉语言连接器的影响更大，不同的预训练数据集会显著影响模型的有效性。MM1的独特之处在于其庞大的规模和架构创新，包括密集的模型和混合专家模型。这些模型证明了研究人员方法的有效性，将大规模预训练与战略性数据选择相结合，以增强模型的学习能力。研发团队称，MM1不仅在预训练指标中是“最先进的”，并且在一系列已建立的多模态基准测试中，经过微调后也保持了“有竞争力的”性能。MM1可以支持增强的上下文学习和多图像推理，使得少数样本的思维链提示成为可能。然而，目前MM1的整体性能还没有完全超过谷歌的Gemini和OpenAI的GPT-4，虽然MM1可能还不是绝对的领导者，但它仍然是苹果在AI方面的一次重大飞跃。与此同时，苹果公司还出手收购了AI初创公司DarwinAI。DarwinAI以创建更小、更快的AI系统见长，这是实现设备上高效处理的关键因素。收购完成后，DarwinAI的网站和社交媒体账户已悄然下线。据悉，数十名DarwinAI员工已经加入了苹果的AI部门，作为交易的一部分，滑铁卢大学的AI研究员AlexanderWong已加入苹果，担任AI团队的总监。...PC版：https://www.cnbeta.com.tw/articles/soft/1424021.htm手机版：https://m.cnbeta.com.tw/view/1424021.htm

OpenAI 发布自然语言图像生成模型 DALL·E 3

OpenAI发布自然语言图像生成模型DALL·E3DALL·E3原生构建在ChatGPT上，你可以与ChatGPT沟通来进行内容的详细定制。这一点与完全基于CLIP(图像-文本映射模型)的其它图像生成AI截然不同，DALL·E3有着真正的"思考推理大脑"，这使它对画面的细节有着相当大的掌控力，并且不再需要复杂的prompt工程即可理解你的想法。投稿：@ZaiHuaBot频道：@TestFlightCN

2日获悉，在复旦大学自然语言处理实验室(FudanNLP)师生的努力下，基于多模态大模型“复旦・眸思”(MouSi)为视障者量身

2日获悉，在复旦大学自然语言处理实验室(FudanNLP)师生的努力下，基于多模态大模型“复旦・眸思”(MouSi)为视障者量身打造的“听见世界”APP上线，将成为视障人士的生活助手与智能管家。2023年上半年，复旦大学自然语言处理实验室发布了开发MOSS对话式大型语言模型，被称为中国版的GPT，仅用半年时间多模态模型“眸思”问世。据介绍，“眸思”和基于文本的MOSS不同，它能够理解并识别图片内容，致力于成为视障者的一双“眸”。（中新网）

微软公布可以理解图像内容的 AI 模型

微软公布可以理解图像内容的AI模型微软的研究人员介绍了多模态模型，它可以分析图像内容，解决拼图问题，进行视觉文本识别，通过视觉智商测试，并理解自然语言指令。研究人员认为，整合了文本、音频、图像和视频等不同输入模式的多模态人工智能，是建立人工通用智能（AGI）的关键步骤，可以执行人类水平的一般任务。他们在一些测试中评估了Kosmos-1的能力，包括语言理解、语言生成、无光学字符识别的文本分类、图像说明、视觉问题回答、网页问题回答和零样本图像分类。微软称，在许多这些测试中，Kosmos-1的表现超过了目前最先进的模型。来源，来自：雷锋频道：@kejiqu群组：@kejiquchat投稿：@kejiqubot

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人