苹果推出300亿参数多模态大模型 全面转向生成式AI

苹果推出300亿参数多模态大模型全面转向生成式AI就在近日,苹果公司研发团队发布了一篇论文《MM1:Methods,Analysis&InsightsfromMultimodalLLMPre-training》,首次公布了多模态大模型MM1,展示了该公司在AI方面的进展与实力。据悉,MM1最高参数量为300亿,该模型支持增强的上下文学习和多图像推理,在一些多模态基准测试中有较好表现。研究人员使用这些模型进行实验,找出影响大模型表现的关键因素。有趣的是,图像分辨率和图像标签数量比视觉语言连接器的影响更大,不同的预训练数据集会显著影响模型的有效性。MM1的独特之处在于其庞大的规模和架构创新,包括密集的模型和混合专家模型。这些模型证明了研究人员方法的有效性,将大规模预训练与战略性数据选择相结合,以增强模型的学习能力。研发团队称,MM1不仅在预训练指标中是“最先进的”,并且在一系列已建立的多模态基准测试中,经过微调后也保持了“有竞争力的”性能。MM1可以支持增强的上下文学习和多图像推理,使得少数样本的思维链提示成为可能。然而,目前MM1的整体性能还没有完全超过谷歌的Gemini和OpenAI的GPT-4,虽然MM1可能还不是绝对的领导者,但它仍然是苹果在AI方面的一次重大飞跃。与此同时,苹果公司还出手收购了AI初创公司DarwinAI。DarwinAI以创建更小、更快的AI系统见长,这是实现设备上高效处理的关键因素。收购完成后,DarwinAI的网站和社交媒体账户已悄然下线。据悉,数十名DarwinAI员工已经加入了苹果的AI部门,作为交易的一部分,滑铁卢大学的AI研究员AlexanderWong已加入苹果,担任AI团队的总监。...PC版:https://www.cnbeta.com.tw/articles/soft/1424021.htm手机版:https://m.cnbeta.com.tw/view/1424021.htm

相关推荐

封面图片

苹果推出 300 亿参数 MM1 多模态 AI 大模型,可识别图像推理自然语言

苹果公司旗下研究团队近日在 ArXiv 中公布了一篇名为《MM1:Methods, Analysis&InsightsfromMultimodalLLMPre-training》的论文,其中介绍了一款“MM1”多模态大模型,该模型提供 30亿、70亿、300亿三种参数规模,拥有图像识别和自然语推理能力。苹果研究团队相关论文主要是利用MM1 模型做实验,通过控制各种变量,找出影响模型效果的关键因素。研究表明,图像分辨率和图像标记数量对模型性能影响较大,视觉语言连接器对模型的影响较小,不同类型的预训练数据对模型的性能有不同的影响。据介绍,研究团队首先在模型架构决策和预训练数据上进行小规模消融实验。之后利用混合专家(MixtureofExperts)架构及一种名为Top-2Gating的方法构建了MM1模型,号称不仅在预训练指标中实现了最好的性能表现,在一系列已有多模态基准上监督微调后也能保持有竞争力的性能。研究人员对“MM1”模型进行了测试,号称 MM1-3B-Chat 和 MM1-7B-Chat 优于市面上绝大多数相同规模的模型。MM1-3B-Chat 和 MM1-7B-Chat 在 VQAv2、TextVQA、ScienceQA、MMBench、MMMU 和MathVista中表现尤为突出,但是整体表现不如谷歌的Gemini和OpenAI的GPT-4V。ArXiv论文地址:https://arxiv.org/pdf/2403.09611.pdfvia匿名标签:#Apple#AI#MM1频道:@GodlyNews1投稿:@GodlyNewsBot

封面图片

【#苹果推出300亿参数MM1多模态大模型,可识别图像推理自然语言】近日,在一篇由多位作者署名的论文《MM1:Methods,A

【#苹果推出300亿参数MM1多模态大模型,可识别图像推理自然语言】近日,在一篇由多位作者署名的论文《MM1:Methods,Analysis&InsightsfromMultimodalLLMPre-training》中,苹果正式公布自家的多模态大模型研究成果——这是一个具有高达300亿(其他为30亿、70亿)的多模态模型系列,它由密集模型和混合专家(MoE)变体组成,不仅在预训练指标中实现SOTA,在一系列已有多模态基准上监督微调后也能保持有竞争力的性能。MM1多模态大模型拥有图像识别和自然语言推理能力。(IT之家)

封面图片

xAI 推出首个多模态 AI 模型 Grok-1.5V

xAI推出首个多模态AI模型Grok-1.5V马斯克旗下人工智能公司xAI宣布推出首个多模态AI模型Grok-1.5V。除了强大的文本处理能力,Grok还能够处理各种视觉信息,包括文档、图表、屏幕截图和照片等。在多个领域的基准测试中,Grok-1.5V的表现均可与现有的前沿多模态模型相媲美。尤其在xAI新推出的RealWorldQA基准测试中,Grok在现实世界空间理解能力上超越了同类模型。RealWorldQA数据集包含700多张图像,旨在评估多模态模型对物理世界的基本理解能力。Grok-1.5将很快向早期测试人员和现有用户开放。

封面图片

华泰证券:苹果中国区有望接入国产大模型,AI 多模态有望加速发展

华泰证券:苹果中国区有望接入国产大模型,AI多模态有望加速发展华泰证券认为,相较于AI产品的体验创新,苹果AI应用更多的意义在于:1)基于本地化数据,苹果AI可以真正做到以用户为中心,无缝集成至用户日常使用的体验中,或将深度改变用户的AI使用习惯,AI相关应用的渗透率有望提升;2)基于苹果强大的生态体系,不同硬件间的数据可实现无缝链接,同时兼顾隐私保护,预计将提升AI功能使用体验,AI应用的使用频次及使用时长有望持续提升。2024年以来国内AI大模型及应用发展迅速,文心一言、Kimi、阶跃星辰、天工大模型等获得持续关注,随着苹果智能中国区的上线,有望推动国产优质AI大模型及应用加速发展。24年是AI多模态之年,持续看好多模态AI应用发展机会。

封面图片

中信证券:OpenAI 推出视频生成模型 Sora,AI 产业围绕多模态不断加码

中信证券:OpenAI推出视频生成模型Sora,AI产业围绕多模态不断加码中信证券研报指出,近一周内,OpenAI和谷歌分别推出了他们的最新AI模型,围绕视频多模态这个核心关键点双方不断加码。Gemini1.5Pro基于大语言模型处理视频模态,上下文长度超过百万,Sora在技术上采用了DiffusionTransformer的路线,OpenAI表示Sora在训练过程中表现出了与其他模型不同的涌现能力,有望成为真正的“世界模型”。从投资角度来看,Sora背后的涌现能力为自动驾驶、设计等需要现实世界建模的行业提供了明确方向。Gemini在短期内的部分商业场景表现可能会更为出色,尤其是需要结合图片与文字的多模态应用场景。除去应用端的投资机会,硬件端的需求也必然会随着多模态的技术进步而不断提高,我们仍然持续看好AI算力,尤其是后续商业端成熟而带来的更多AI推理侧算力的机会。

封面图片

润建股份:公司曲尺平台开发的 AI 行业模型支持多模态

润建股份:公司曲尺平台开发的AI行业模型支持多模态润建股份在互动平台表示,公司曲尺平台开发的AI行业模型支持多模态,多模态底座具备文生图、图生图、图生文的功能,可以应用在各行业进行营销、培训等文案编写、图像理解、算法所需图像样本训练精度增强等。曲尺作为人工智能行业模型生成工具,生成的算法及模型已直接产生收入,同时也应用于公司数字化解决方案、智能管维、新能源等业务上,以销售相关解决方案和产品产生收入。

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人