苹果推出 300 亿参数 MM1 多模态 AI 大模型，可识别图像推理自然语言

苹果公司旗下研究团队近日在 ArXiv 中公布了一篇名为《MM1：Methods， Analysis&InsightsfromMultimodalLLMPre-training》的论文，其中介绍了一款“MM1”多模态大模型，该模型提供 30亿、70亿、300亿三种参数规模，拥有图像识别和自然语推理能力。苹果研究团队相关论文主要是利用MM1 模型做实验，通过控制各种变量，找出影响模型效果的关键因素。研究表明，图像分辨率和图像标记数量对模型性能影响较大，视觉语言连接器对模型的影响较小，不同类型的预训练数据对模型的性能有不同的影响。据介绍，研究团队首先在模型架构决策和预训练数据上进行小规模消融实验。之后利用混合专家（MixtureofExperts）架构及一种名为Top-2Gating的方法构建了MM1模型，号称不仅在预训练指标中实现了最好的性能表现，在一系列已有多模态基准上监督微调后也能保持有竞争力的性能。研究人员对“MM1”模型进行了测试，号称 MM1-3B-Chat 和 MM1-7B-Chat 优于市面上绝大多数相同规模的模型。MM1-3B-Chat 和 MM1-7B-Chat 在 VQAv2、TextVQA、ScienceQA、MMBench、MMMU 和MathVista中表现尤为突出，但是整体表现不如谷歌的Gemini和OpenAI的GPT-4V。ArXiv论文地址：https://arxiv.org/pdf/2403.09611.pdfvia匿名标签:#Apple#AI#MM1频道:@GodlyNews1投稿:@GodlyNewsBot

在Telegram中查看

相关推荐

【#苹果推出300亿参数MM1多模态大模型，可识别图像推理自然语言】近日，在一篇由多位作者署名的论文《MM1:Methods,A

【#苹果推出300亿参数MM1多模态大模型，可识别图像推理自然语言】近日，在一篇由多位作者署名的论文《MM1:Methods,Analysis&InsightsfromMultimodalLLMPre-training》中，苹果正式公布自家的多模态大模型研究成果——这是一个具有高达300亿（其他为30亿、70亿）的多模态模型系列，它由密集模型和混合专家（MoE）变体组成，不仅在预训练指标中实现SOTA，在一系列已有多模态基准上监督微调后也能保持有竞争力的性能。MM1多模态大模型拥有图像识别和自然语言推理能力。（IT之家）

苹果推出300亿参数多模态大模型全面转向生成式AI

苹果推出300亿参数多模态大模型全面转向生成式AI就在近日，苹果公司研发团队发布了一篇论文《MM1：Methods，Analysis&InsightsfromMultimodalLLMPre-training》，首次公布了多模态大模型MM1，展示了该公司在AI方面的进展与实力。据悉，MM1最高参数量为300亿，该模型支持增强的上下文学习和多图像推理，在一些多模态基准测试中有较好表现。研究人员使用这些模型进行实验，找出影响大模型表现的关键因素。有趣的是，图像分辨率和图像标签数量比视觉语言连接器的影响更大，不同的预训练数据集会显著影响模型的有效性。MM1的独特之处在于其庞大的规模和架构创新，包括密集的模型和混合专家模型。这些模型证明了研究人员方法的有效性，将大规模预训练与战略性数据选择相结合，以增强模型的学习能力。研发团队称，MM1不仅在预训练指标中是“最先进的”，并且在一系列已建立的多模态基准测试中，经过微调后也保持了“有竞争力的”性能。MM1可以支持增强的上下文学习和多图像推理，使得少数样本的思维链提示成为可能。然而，目前MM1的整体性能还没有完全超过谷歌的Gemini和OpenAI的GPT-4，虽然MM1可能还不是绝对的领导者，但它仍然是苹果在AI方面的一次重大飞跃。与此同时，苹果公司还出手收购了AI初创公司DarwinAI。DarwinAI以创建更小、更快的AI系统见长，这是实现设备上高效处理的关键因素。收购完成后，DarwinAI的网站和社交媒体账户已悄然下线。据悉，数十名DarwinAI员工已经加入了苹果的AI部门，作为交易的一部分，滑铁卢大学的AI研究员AlexanderWong已加入苹果，担任AI团队的总监。...PC版：https://www.cnbeta.com.tw/articles/soft/1424021.htm手机版：https://m.cnbeta.com.tw/view/1424021.htm

苹果发布人工智能模型MGIE 可根据自然语言输入编辑图片

苹果发布人工智能模型MGIE可根据自然语言输入编辑图片该模型能够编辑图像的各个方面。全局照片增强可包括亮度、对比度或锐利度，或应用素描等艺术效果。局部编辑可以修改图像中特定区域或对象的形状、大小、颜色或纹理，而Photoshop风格的修改则包括裁剪、调整大小、旋转和添加滤镜，甚至是更改背景和混合图像。用户对一张披萨照片的输入可能是"让它看起来更健康"。利用常识推理，模型可以添加蔬菜配料，如西红柿和香草。全局优化输入请求的形式可以是"增加对比度，模拟更多光线"，而Photoshop风格的修改可以是要求模型将人物从照片背景中移除，将图像的焦点转移到拍摄对象的面部表情上。苹果公司与加州大学的研究人员合作创建了MGIE，并在2024年国际学习表征会议（ICLR）上发表了一篇论文。该模型可在GitHub上获取，包括代码、数据和预训练模型。这是苹果公司几个月来在人工智能研究领域取得的第二次突破。12月底，苹果公司透露，通过发明一种创新的闪存利用技术，它在iPhone和其他内存有限的苹果设备上部署大型语言模型(LLM)方面取得了长足进步。在过去的几个月里，苹果一直在测试一种可以与ChatGPT竞争的"AppleGPT"。据彭博社的马克-古尔曼（MarkGurman）称，人工智能工作是苹果公司的一个优先事项，该公司正在为大型语言模型设计一个"Ajax"框架。TheInformation和分析师杰夫-普（JeffPu）都声称，苹果将在2024年底左右在iPhone和iPad上推出某种生成式人工智能功能，也就是iOS18上市的时候。据古尔曼称，iOS18据说将包括一个增强版Siri，具有类似ChatGPT的生成式人工智能功能，并有可能成为iPhone历史上"最大的"软件更新。...PC版：https://www.cnbeta.com.tw/articles/soft/1416801.htm手机版：https://m.cnbeta.com.tw/view/1416801.htm

OpenAI 发布自然语言图像生成模型 DALL·E 3

OpenAI发布自然语言图像生成模型DALL·E3DALL·E3原生构建在ChatGPT上，你可以与ChatGPT沟通来进行内容的详细定制。这一点与完全基于CLIP(图像-文本映射模型)的其它图像生成AI截然不同，DALL·E3有着真正的"思考推理大脑"，这使它对画面的细节有着相当大的掌控力，并且不再需要复杂的prompt工程即可理解你的想法。投稿：@ZaiHuaBot频道：@TestFlightCN

苹果发布 OpenELM 大语言模型，基于开源训练和推理框架的语言模型

苹果发布OpenELM大语言模型，基于开源训练和推理框架的语言模型在WWDC24之前，苹果在HuggingFace平台上发布了一个“具有开源训练和推理框架的高效语言模型”，名为OpenELM。苹果这次发布了完整的框架，包括数据准备、训练、微调和评估程序，以及多个预训练的checkpoint和训练日志，以促进开源研究。其源码及预训练的模型权重和训练配方可在苹果Github库中获取。

华为盘古NLP模型是华为云推出的一种中文自然语言处理模型，是业界首个千亿参数语言预训练模型 1. 它在预训练阶段学习了40T

华为盘古NLP模型是华为云推出的一种中文自然语言处理模型，是业界首个千亿参数中文语言预训练模型1.它在预训练阶段学习了40TB中文文本数据，是最接近人类中文理解能力的AI大模型1.盘古NLP大模型可用于内容生成、内容理解等方面，并首次使用Encoder-Decoder架构，兼顾NLP大模型的理解能力和生成能力，保证了模型在不同系统中的嵌入灵活性3.总之，华为盘古NLP模型是一种中文自然语言处理模型，它是业界首个千亿参数中文语言预训练模型，可用于内容生成、内容理解等方面，并首次使用Encoder-Decoder架构盘古大模型已经产出工业成果了，HI自动驾驶就是基于盘古模型学习的，问界的语音控制也是，还有个重磅的就是C919的诞生，是中国商飞上海飞机设计研究院联合华为发布了世界首个工业级流体仿真大模型东方•御风也是基于盘古模型打造的华为盘古大模型在工业领域较为出色，大模型的名称是因为，这玩意不是你用个电脑就能跑起来的，就算放到云上让你用，成本和延迟也不允许。所以盘古大模型的性能优化应该没有GPT那么惊艳。至于文心一言，它是百度的半成品，我认为它的进步的速度会非常快，1-2个月后可见分晓，千万不要以固有思维去理解AI，chatgpt刚出来时也表现一般#文章#AI#科技viaJasonh

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人