苹果推出 300 亿参数 MM1 多模态 AI 大模型,可识别图像推理自然语言

苹果公司旗下研究团队近日在 ArXiv 中公布了一篇名为《MM1:Methods, Analysis&InsightsfromMultimodalLLMPre-training》的论文,其中介绍了一款“MM1”多模态大模型,该模型提供 30亿、70亿、300亿三种参数规模,拥有图像识别和自然语推理能力。苹果研究团队相关论文主要是利用MM1 模型做实验,通过控制各种变量,找出影响模型效果的关键因素。研究表明,图像分辨率和图像标记数量对模型性能影响较大,视觉语言连接器对模型的影响较小,不同类型的预训练数据对模型的性能有不同的影响。据介绍,研究团队首先在模型架构决策和预训练数据上进行小规模消融实验。之后利用混合专家(MixtureofExperts)架构及一种名为Top-2Gating的方法构建了MM1模型,号称不仅在预训练指标中实现了最好的性能表现,在一系列已有多模态基准上监督微调后也能保持有竞争力的性能。研究人员对“MM1”模型进行了测试,号称 MM1-3B-Chat 和 MM1-7B-Chat 优于市面上绝大多数相同规模的模型。MM1-3B-Chat 和 MM1-7B-Chat 在 VQAv2、TextVQA、ScienceQA、MMBench、MMMU 和MathVista中表现尤为突出,但是整体表现不如谷歌的Gemini和OpenAI的GPT-4V。ArXiv论文地址:https://arxiv.org/pdf/2403.09611.pdfvia匿名标签:#Apple#AI#MM1频道:@GodlyNews1投稿:@GodlyNewsBot

相关推荐

封面图片

【#苹果推出300亿参数MM1多模态大模型,可识别图像推理自然语言】近日,在一篇由多位作者署名的论文《MM1:Methods,A

【#苹果推出300亿参数MM1多模态大模型,可识别图像推理自然语言】近日,在一篇由多位作者署名的论文《MM1:Methods,Analysis&InsightsfromMultimodalLLMPre-training》中,苹果正式公布自家的多模态大模型研究成果——这是一个具有高达300亿(其他为30亿、70亿)的多模态模型系列,它由密集模型和混合专家(MoE)变体组成,不仅在预训练指标中实现SOTA,在一系列已有多模态基准上监督微调后也能保持有竞争力的性能。MM1多模态大模型拥有图像识别和自然语言推理能力。(IT之家)

封面图片

苹果推出300亿参数多模态大模型 全面转向生成式AI

苹果推出300亿参数多模态大模型全面转向生成式AI就在近日,苹果公司研发团队发布了一篇论文《MM1:Methods,Analysis&InsightsfromMultimodalLLMPre-training》,首次公布了多模态大模型MM1,展示了该公司在AI方面的进展与实力。据悉,MM1最高参数量为300亿,该模型支持增强的上下文学习和多图像推理,在一些多模态基准测试中有较好表现。研究人员使用这些模型进行实验,找出影响大模型表现的关键因素。有趣的是,图像分辨率和图像标签数量比视觉语言连接器的影响更大,不同的预训练数据集会显著影响模型的有效性。MM1的独特之处在于其庞大的规模和架构创新,包括密集的模型和混合专家模型。这些模型证明了研究人员方法的有效性,将大规模预训练与战略性数据选择相结合,以增强模型的学习能力。研发团队称,MM1不仅在预训练指标中是“最先进的”,并且在一系列已建立的多模态基准测试中,经过微调后也保持了“有竞争力的”性能。MM1可以支持增强的上下文学习和多图像推理,使得少数样本的思维链提示成为可能。然而,目前MM1的整体性能还没有完全超过谷歌的Gemini和OpenAI的GPT-4,虽然MM1可能还不是绝对的领导者,但它仍然是苹果在AI方面的一次重大飞跃。与此同时,苹果公司还出手收购了AI初创公司DarwinAI。DarwinAI以创建更小、更快的AI系统见长,这是实现设备上高效处理的关键因素。收购完成后,DarwinAI的网站和社交媒体账户已悄然下线。据悉,数十名DarwinAI员工已经加入了苹果的AI部门,作为交易的一部分,滑铁卢大学的AI研究员AlexanderWong已加入苹果,担任AI团队的总监。...PC版:https://www.cnbeta.com.tw/articles/soft/1424021.htm手机版:https://m.cnbeta.com.tw/view/1424021.htm

封面图片

苹果发布人工智能模型MGIE 可根据自然语言输入编辑图片

苹果发布人工智能模型MGIE可根据自然语言输入编辑图片该模型能够编辑图像的各个方面。全局照片增强可包括亮度、对比度或锐利度,或应用素描等艺术效果。局部编辑可以修改图像中特定区域或对象的形状、大小、颜色或纹理,而Photoshop风格的修改则包括裁剪、调整大小、旋转和添加滤镜,甚至是更改背景和混合图像。用户对一张披萨照片的输入可能是"让它看起来更健康"。利用常识推理,模型可以添加蔬菜配料,如西红柿和香草。全局优化输入请求的形式可以是"增加对比度,模拟更多光线",而Photoshop风格的修改可以是要求模型将人物从照片背景中移除,将图像的焦点转移到拍摄对象的面部表情上。苹果公司与加州大学的研究人员合作创建了MGIE,并在2024年国际学习表征会议(ICLR)上发表了一篇论文。该模型可在GitHub上获取,包括代码、数据和预训练模型。这是苹果公司几个月来在人工智能研究领域取得的第二次突破。12月底,苹果公司透露,通过发明一种创新的闪存利用技术,它在iPhone和其他内存有限的苹果设备上部署大型语言模型(LLM)方面取得了长足进步。在过去的几个月里,苹果一直在测试一种可以与ChatGPT竞争的"AppleGPT"。据彭博社的马克-古尔曼(MarkGurman)称,人工智能工作是苹果公司的一个优先事项,该公司正在为大型语言模型设计一个"Ajax"框架。TheInformation和分析师杰夫-普(JeffPu)都声称,苹果将在2024年底左右在iPhone和iPad上推出某种生成式人工智能功能,也就是iOS18上市的时候。据古尔曼称,iOS18据说将包括一个增强版Siri,具有类似ChatGPT的生成式人工智能功能,并有可能成为iPhone历史上"最大的"软件更新。...PC版:https://www.cnbeta.com.tw/articles/soft/1416801.htm手机版:https://m.cnbeta.com.tw/view/1416801.htm

封面图片

OpenAI 发布自然语言图像生成模型 DALL·E 3

OpenAI发布自然语言图像生成模型DALL·E3DALL·E3原生构建在ChatGPT上,你可以与ChatGPT沟通来进行内容的详细定制。这一点与完全基于CLIP(图像-文本映射模型)的其它图像生成AI截然不同,DALL·E3有着真正的"思考推理大脑",这使它对画面的细节有着相当大的掌控力,并且不再需要复杂的prompt工程即可理解你的想法。投稿:@ZaiHuaBot频道:@TestFlightCN

封面图片

苹果发布 OpenELM 大语言模型,基于开源训练和推理框架的语言模型

苹果发布OpenELM大语言模型,基于开源训练和推理框架的语言模型在WWDC24之前,苹果在HuggingFace平台上发布了一个“具有开源训练和推理框架的高效语言模型”,名为OpenELM。苹果这次发布了完整的框架,包括数据准备、训练、微调和评估程序,以及多个预训练的checkpoint和训练日志,以促进开源研究。其源码及预训练的模型权重和训练配方可在苹果Github库中获取。

封面图片

华为盘古NLP模型是华为云推出的一种中文自然语言处理模型,是业界首个千亿参数语言预训练模型 1. 它在预训练阶段学习了40T

华为盘古NLP模型是华为云推出的一种中文自然语言处理模型,是业界首个千亿参数中文语言预训练模型1.它在预训练阶段学习了40TB中文文本数据,是最接近人类中文理解能力的AI大模型1.盘古NLP大模型可用于内容生成、内容理解等方面,并首次使用Encoder-Decoder架构,兼顾NLP大模型的理解能力和生成能力,保证了模型在不同系统中的嵌入灵活性3.总之,华为盘古NLP模型是一种中文自然语言处理模型,它是业界首个千亿参数中文语言预训练模型,可用于内容生成、内容理解等方面,并首次使用Encoder-Decoder架构​盘古大模型已经产出工业成果了,HI自动驾驶就是基于盘古模型学习的,问界的语音控制也是,还有个重磅的就是C919的诞生,是中国商飞上海飞机设计研究院联合华为发布了世界首个工业级​流体仿​真大模型东方•御风也是基于盘古模型打造的​华为盘古大模型在工业领域较为出色,大模型的名称是因为,这玩意不是你用个电脑就能跑起来的,就算放到云上让你用,成本和延迟也不允许。所以盘古大模型的性能优化应该没有GPT那么惊艳。至于文心一​言,它是百度的半成品,我认为它的进步的速度会非常快,1-2个月后可见分晓,千万不要以固有思维去理解AI,chatgpt刚出来时也表现一般#文章#AI#科技viaJasonh

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人