苹果推出300亿参数多模态大模型全面转向生成式AI

苹果推出300亿参数多模态大模型全面转向生成式AI就在近日，苹果公司研发团队发布了一篇论文《MM1：Methods，Analysis&InsightsfromMultimodalLLMPre-training》，首次公布了多模态大模型MM1，展示了该公司在AI方面的进展与实力。据悉，MM1最高参数量为300亿，该模型支持增强的上下文学习和多图像推理，在一些多模态基准测试中有较好表现。研究人员使用这些模型进行实验，找出影响大模型表现的关键因素。有趣的是，图像分辨率和图像标签数量比视觉语言连接器的影响更大，不同的预训练数据集会显著影响模型的有效性。MM1的独特之处在于其庞大的规模和架构创新，包括密集的模型和混合专家模型。这些模型证明了研究人员方法的有效性，将大规模预训练与战略性数据选择相结合，以增强模型的学习能力。研发团队称，MM1不仅在预训练指标中是“最先进的”，并且在一系列已建立的多模态基准测试中，经过微调后也保持了“有竞争力的”性能。MM1可以支持增强的上下文学习和多图像推理，使得少数样本的思维链提示成为可能。然而，目前MM1的整体性能还没有完全超过谷歌的Gemini和OpenAI的GPT-4，虽然MM1可能还不是绝对的领导者，但它仍然是苹果在AI方面的一次重大飞跃。与此同时，苹果公司还出手收购了AI初创公司DarwinAI。DarwinAI以创建更小、更快的AI系统见长，这是实现设备上高效处理的关键因素。收购完成后，DarwinAI的网站和社交媒体账户已悄然下线。据悉，数十名DarwinAI员工已经加入了苹果的AI部门，作为交易的一部分，滑铁卢大学的AI研究员AlexanderWong已加入苹果，担任AI团队的总监。...PC版：https://www.cnbeta.com.tw/articles/soft/1424021.htm手机版：https://m.cnbeta.com.tw/view/1424021.htm

在Telegram中查看

相关推荐

苹果推出 300 亿参数 MM1 多模态 AI 大模型，可识别图像推理自然语言

苹果公司旗下研究团队近日在 ArXiv 中公布了一篇名为《MM1：Methods， Analysis&InsightsfromMultimodalLLMPre-training》的论文，其中介绍了一款“MM1”多模态大模型，该模型提供 30亿、70亿、300亿三种参数规模，拥有图像识别和自然语推理能力。苹果研究团队相关论文主要是利用MM1 模型做实验，通过控制各种变量，找出影响模型效果的关键因素。研究表明，图像分辨率和图像标记数量对模型性能影响较大，视觉语言连接器对模型的影响较小，不同类型的预训练数据对模型的性能有不同的影响。据介绍，研究团队首先在模型架构决策和预训练数据上进行小规模消融实验。之后利用混合专家（MixtureofExperts）架构及一种名为Top-2Gating的方法构建了MM1模型，号称不仅在预训练指标中实现了最好的性能表现，在一系列已有多模态基准上监督微调后也能保持有竞争力的性能。研究人员对“MM1”模型进行了测试，号称 MM1-3B-Chat 和 MM1-7B-Chat 优于市面上绝大多数相同规模的模型。MM1-3B-Chat 和 MM1-7B-Chat 在 VQAv2、TextVQA、ScienceQA、MMBench、MMMU 和MathVista中表现尤为突出，但是整体表现不如谷歌的Gemini和OpenAI的GPT-4V。ArXiv论文地址：https://arxiv.org/pdf/2403.09611.pdfvia匿名标签:#Apple#AI#MM1频道:@GodlyNews1投稿:@GodlyNewsBot

【#苹果推出300亿参数MM1多模态大模型，可识别图像推理自然语言】近日，在一篇由多位作者署名的论文《MM1:Methods,A

【#苹果推出300亿参数MM1多模态大模型，可识别图像推理自然语言】近日，在一篇由多位作者署名的论文《MM1:Methods,Analysis&InsightsfromMultimodalLLMPre-training》中，苹果正式公布自家的多模态大模型研究成果——这是一个具有高达300亿（其他为30亿、70亿）的多模态模型系列，它由密集模型和混合专家（MoE）变体组成，不仅在预训练指标中实现SOTA，在一系列已有多模态基准上监督微调后也能保持有竞争力的性能。MM1多模态大模型拥有图像识别和自然语言推理能力。（IT之家）

xAI 推出首个多模态 AI 模型 Grok-1.5V

xAI推出首个多模态AI模型Grok-1.5V马斯克旗下人工智能公司xAI宣布推出首个多模态AI模型Grok-1.5V。除了强大的文本处理能力，Grok还能够处理各种视觉信息，包括文档、图表、屏幕截图和照片等。在多个领域的基准测试中，Grok-1.5V的表现均可与现有的前沿多模态模型相媲美。尤其在xAI新推出的RealWorldQA基准测试中，Grok在现实世界空间理解能力上超越了同类模型。RealWorldQA数据集包含700多张图像，旨在评估多模态模型对物理世界的基本理解能力。Grok-1.5将很快向早期测试人员和现有用户开放。

华泰证券：苹果中国区有望接入国产大模型，AI 多模态有望加速发展

华泰证券：苹果中国区有望接入国产大模型，AI多模态有望加速发展华泰证券认为，相较于AI产品的体验创新，苹果AI应用更多的意义在于：1）基于本地化数据，苹果AI可以真正做到以用户为中心，无缝集成至用户日常使用的体验中，或将深度改变用户的AI使用习惯，AI相关应用的渗透率有望提升；2）基于苹果强大的生态体系，不同硬件间的数据可实现无缝链接，同时兼顾隐私保护，预计将提升AI功能使用体验，AI应用的使用频次及使用时长有望持续提升。2024年以来国内AI大模型及应用发展迅速，文心一言、Kimi、阶跃星辰、天工大模型等获得持续关注，随着苹果智能中国区的上线，有望推动国产优质AI大模型及应用加速发展。24年是AI多模态之年，持续看好多模态AI应用发展机会。

中信证券：OpenAI 推出视频生成模型 Sora，AI 产业围绕多模态不断加码

中信证券：OpenAI推出视频生成模型Sora，AI产业围绕多模态不断加码中信证券研报指出，近一周内，OpenAI和谷歌分别推出了他们的最新AI模型，围绕视频多模态这个核心关键点双方不断加码。Gemini1.5Pro基于大语言模型处理视频模态，上下文长度超过百万，Sora在技术上采用了DiffusionTransformer的路线，OpenAI表示Sora在训练过程中表现出了与其他模型不同的涌现能力，有望成为真正的“世界模型”。从投资角度来看，Sora背后的涌现能力为自动驾驶、设计等需要现实世界建模的行业提供了明确方向。Gemini在短期内的部分商业场景表现可能会更为出色，尤其是需要结合图片与文字的多模态应用场景。除去应用端的投资机会，硬件端的需求也必然会随着多模态的技术进步而不断提高，我们仍然持续看好AI算力，尤其是后续商业端成熟而带来的更多AI推理侧算力的机会。

润建股份：公司曲尺平台开发的 AI 行业模型支持多模态

润建股份：公司曲尺平台开发的AI行业模型支持多模态润建股份在互动平台表示，公司曲尺平台开发的AI行业模型支持多模态，多模态底座具备文生图、图生图、图生文的功能，可以应用在各行业进行营销、培训等文案编写、图像理解、算法所需图像样本训练精度增强等。曲尺作为人工智能行业模型生成工具，生成的算法及模型已直接产生收入，同时也应用于公司数字化解决方案、智能管维、新能源等业务上，以销售相关解决方案和产品产生收入。

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人