苹果推出300亿参数多模态大模型 全面转向生成式AI

苹果推出300亿参数多模态大模型 全面转向生成式AI 就在近日,苹果公司研发团队发布了一篇论文《MM1: Methods, Analysis & Insights from Multimodal LLM Pre-training》,首次公布了多模态大模型MM1,展示了该公司在AI方面的进展与实力。据悉,MM1最高参数量为300亿,该模型支持增强的上下文学习和多图像推理,在一些多模态基准测试中有较好表现。研究人员使用这些模型进行实验,找出影响大模型表现的关键因素。有趣的是,图像分辨率和图像标签数量比视觉语言连接器的影响更大,不同的预训练数据集会显著影响模型的有效性。MM1的独特之处在于其庞大的规模和架构创新,包括密集的模型和混合专家模型。这些模型证明了研究人员方法的有效性,将大规模预训练与战略性数据选择相结合,以增强模型的学习能力。研发团队称,MM1不仅在预训练指标中是“最先进的”,并且在一系列已建立的多模态基准测试中,经过微调后也保持了“有竞争力的”性能。MM1可以支持增强的上下文学习和多图像推理,使得少数样本的思维链提示成为可能。然而,目前MM1的整体性能还没有完全超过谷歌的Gemini和OpenAI的GPT-4,虽然MM1可能还不是绝对的领导者,但它仍然是苹果在AI方面的一次重大飞跃。与此同时,苹果公司还出手收购了AI初创公司DarwinAI。DarwinAI以创建更小、更快的AI系统见长,这是实现设备上高效处理的关键因素。收购完成后,DarwinAI的网站和社交媒体账户已悄然下线。据悉,数十名DarwinAI员工已经加入了苹果的AI部门,作为交易的一部分,滑铁卢大学的AI研究员Alexander Wong已加入苹果,担任AI团队的总监。 ... PC版: 手机版:

相关推荐

封面图片

#DeepSeek1.28 DeepSeek发布新款开源多模态AI模型Janus-Pro

#DeepSeek 1.28 DeepSeek发布新款开源多模态AI模型Janus-Pro 人工智能社区Hugging Face显示,DeepSeek刚刚发布了开源多模态人工智能(AI)模型Janus-Pro。 它具有多模态功能(可生成图像),在 GenEval 和 DPG-Bench 基准测试中击败了 OpenAI 的 DALL-E 3 和 Stable Diffusion。

封面图片

苹果公司旗下研究团队近日

苹果公司旗下研究团队近日 在 ArXiv 中公布了一篇名为《MM1:Methods, Analysis & Insights from Multimodal LLM Pre-training》的论文,其中介绍了一款 “MM1”多模态大模型,该模型提供 30 亿、70 亿、300 亿三种参数规模,拥有图像识别和自然语推理能力。 苹果研究团队相关论文主要是利用 MM1 模型做实验,通过控制各种变量,找出影响模型效果的关键因素。 研究表明,图像分辨率和图像标记数量对模型性能影响较大,视觉语言连接器对模型的影响较小,不同类型的预训练数据对模型的性能有不同的影响。 据介绍,研究团队首先在模型架构决策和预训练数据上进行小规模消融实验。之后利用混合专家(Mixture of Experts)架构及一种名为 Top-2 Gating 的方法构建了 MM1 模型,号称不仅在预训练指标中实现了最好的性能表现,在一系列已有多模态基准上监督微调后也能保持有竞争力的性能。 研究人员对“MM1”模型进行了测试,号称 MM1-3B-Chat 和 MM1-7B-Chat 优于市面上绝大多数相同规模的模型。MM1-3B-Chat 和 MM1-7B-Chat 在 VQAv2、TextVQA、ScienceQA、MMBench、MMMU 和 MathVista 中表现尤为突出,但是整体表现不如谷歌的 Gemini 和 OpenAI 的 GPT-4V。 ArXiv 论文地址: via 匿名 标签: #Apple #AI #MM1 频道: @GodlyNews1 投稿: @GodlyNewsBot

封面图片

Meta ImageBind 多模态模型开源,我们离AGI又进一步。

Meta ImageBind 多模态模型开源,我们离AGI又进一步。 当人类看到一辆行驶中的火车,不仅会使用视觉,还会听到声音,感知距离,感知速度。 ImageBind 也是类似,它将六种数据,文本,音频,视觉,运动,温度,深度,嵌入到一个向量空间,让模型像千脑智能那样,调动不同的感知区域进行「交谈」并做出全面的解释和判断。 (这与文心一言等模型每个模态有自己嵌入空间的所谓多模态截然不同。) 一些应用(见图): - 通过火车的声音、图像、深度信息,生成准确的文字描述 - 通过鸽子的图片和摩托的声音,减缩到摩托车和鸽子的图像 - 通过企鹅的声音,生成企鹅的图像 另一些可能性: - 拍摄一段海洋日落的视频,自动生成完美的音频剪辑。 - 通过静态图像和音频组合,创建动画。 - 通过Make-A-Video生成视频时,自动加上背景音。(飞狗图) 未来不止于此,模型还可以引入更多的模态,如触觉、语音、嗅觉和大脑 fMRI 信号,以增强模型对实体世界的感知。

封面图片

苹果在 Hugging Face 上最新推出了 OpenELM 系列语言模型。

苹果在 Hugging Face 上最新推出了 OpenELM 系列语言模型。 OpenELM 总共有 8 个模型,包括 270M、450M、1.1B 和 3B 这四个参数规模(分为预训练版和指令微调版)。 它们使用了总计约 1.8 万亿个 token 的多个公共数据集。 目前,OpenELM 的代码、预训练模型权重以及训练和评估流程全部开放。 标签: #Apple #AI 频道: @GodlyNews1 投稿: @GodlyNewsBot

封面图片

用于评估大型语言模型(LLM) Agent在多步多模态任务中的工具使能力的基准数据集,包含超过 4000 个多步多模态任务,这些

用于评估大型语言模型(LLM) Agent在多步多模态任务中的工具使能力的基准数据集,包含超过 4000 个多步多模态任务,这些任务涉及 33 种工具,包括 13 种多模态模型、9 个公共 API 和 11 个图像处理模块 | #数据集

封面图片

微软公布可以理解图像内容的 AI 模型

微软公布可以理解图像内容的 AI 模型 微软的研究人员介绍了多模态模型 ,它可以分析图像内容,解决拼图问题,进行视觉文本识别,通过视觉智商测试,并理解自然语言指令。研究人员认为,整合了文本、音频、图像和视频等不同输入模式的多模态人工智能,是建立人工通用智能(AGI)的关键步骤,可以执行人类水平的一般任务。他们在一些测试中评估了 Kosmos-1 的能力,包括语言理解、语言生成、无光学字符识别的文本分类、图像说明、视觉问题回答、网页问题回答和零样本图像分类。微软称,在许多这些测试中,Kosmos-1 的表现超过了目前最先进的模型。来源 , 来自:雷锋 频道:@kejiqu 群组:@kejiquchat 投稿:@kejiqubot

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人