苹果开放 AI 研究成果,发布多模态 LLM 模型 Ferret

苹果开放AI研究成果,发布多模态LLM模型Ferret苹果公司工作的研究人员和来自哥伦比亚大学的研究人员在10月份悄然推出了开源多模态LLM,这是一个名为"Ferret"的研究版本,可以使用图像区域进行查询。Ferret于10月份在Github上发布,在很大程度上没有引起人们的注意,也没有发布任何公开发布或宣传操作。Ferret的代码于10月30日与Ferret-Bench一起发布,并于12月14日推出了检查点版本。该模型可以分析图像上绘制的区域,确定其中对用户查询有用的元素,并将其识别出来,在检测到的元素周围绘制一个边界框。然后,它就可以将识别出的元素用作查询的一部分,并以典型的方式作出响应。从Github发布的信息中可以发现一个有趣的现象,Reddit的r/Apple发现Ferret是"在8个A100GPU和80GB内存上进行训练的"。鉴于苹果对NVIDIAGPU支持的历史,这被认为是对GPU生产商的罕见认可。投稿:@TNSubmbot频道:@TestFlightCN

相关推荐

封面图片

苹果开放AI研究成果,发布多模态LLM模型Ferret-IT之家https://www.ithome.com/0/741/312

封面图片

苹果推出300亿参数多模态大模型 全面转向生成式AI

苹果推出300亿参数多模态大模型全面转向生成式AI就在近日,苹果公司研发团队发布了一篇论文《MM1:Methods,Analysis&InsightsfromMultimodalLLMPre-training》,首次公布了多模态大模型MM1,展示了该公司在AI方面的进展与实力。据悉,MM1最高参数量为300亿,该模型支持增强的上下文学习和多图像推理,在一些多模态基准测试中有较好表现。研究人员使用这些模型进行实验,找出影响大模型表现的关键因素。有趣的是,图像分辨率和图像标签数量比视觉语言连接器的影响更大,不同的预训练数据集会显著影响模型的有效性。MM1的独特之处在于其庞大的规模和架构创新,包括密集的模型和混合专家模型。这些模型证明了研究人员方法的有效性,将大规模预训练与战略性数据选择相结合,以增强模型的学习能力。研发团队称,MM1不仅在预训练指标中是“最先进的”,并且在一系列已建立的多模态基准测试中,经过微调后也保持了“有竞争力的”性能。MM1可以支持增强的上下文学习和多图像推理,使得少数样本的思维链提示成为可能。然而,目前MM1的整体性能还没有完全超过谷歌的Gemini和OpenAI的GPT-4,虽然MM1可能还不是绝对的领导者,但它仍然是苹果在AI方面的一次重大飞跃。与此同时,苹果公司还出手收购了AI初创公司DarwinAI。DarwinAI以创建更小、更快的AI系统见长,这是实现设备上高效处理的关键因素。收购完成后,DarwinAI的网站和社交媒体账户已悄然下线。据悉,数十名DarwinAI员工已经加入了苹果的AI部门,作为交易的一部分,滑铁卢大学的AI研究员AlexanderWong已加入苹果,担任AI团队的总监。...PC版:https://www.cnbeta.com.tw/articles/soft/1424021.htm手机版:https://m.cnbeta.com.tw/view/1424021.htm

封面图片

Apple发布大模型论文:多模式LLM预培训的方法、分析和见解

Apple发布大模型论文:多模式LLM预培训的方法、分析和见解2024年3月14日,苹果公司发布了自家的大型多模态基础模型MM1,该模型拥有高达300亿参数,并采用混合专家(MoE)架构。超过半数的论文作者是华人。MM1模型在多模态任务上显示出强大的性能,尤其是在少样本学习和上下文预测方面。研究团队通过对不同架构组件和数据选择的深入分析,提出了几条关键的设计准则。他们发现,图像分辨率、视觉编码器损失和容量,以及预训练数据的类型对模型性能有显著影响。MM1模型的开发,标志着苹果在生成式人工智能领域的重要进展。线索:@ZaiHuabot投稿:@TNSubmbot频道:@TestFlightCN

封面图片

中信证券:谷歌 Gemini 模型发布,AI 进入多模态时代

中信证券:谷歌Gemini模型发布,AI进入多模态时代中信证券研报指出,近日,谷歌宣布发布新一代大模型Gemini,再次引发市场对人工智能产业的持续关注。Gemini模型作为谷歌以及全球范围内最先发布的多模态模型,在性能上是第一个在MMLU上超越人类专家的模型。模型根据体量大小分为GeminiUltra、GeminiPro、以及GeminiNano三个版本,支持在云端以及边缘测运行。同时谷歌同步发布最新版本的计算芯片TPUv5p,相较上一代TPUv4性价比提升2.3倍。我们认为,多模态Gemini模型的正式发布,一方面可以拓宽应用场景的拓展,另一方面能够带来算力需求的持续升级。我们持续看好后续AI产业的前景,认为后续GPT-5等模型的发布亦将带来更多的催化。

封面图片

华泰证券:苹果中国区有望接入国产大模型,AI 多模态有望加速发展

华泰证券:苹果中国区有望接入国产大模型,AI多模态有望加速发展华泰证券认为,相较于AI产品的体验创新,苹果AI应用更多的意义在于:1)基于本地化数据,苹果AI可以真正做到以用户为中心,无缝集成至用户日常使用的体验中,或将深度改变用户的AI使用习惯,AI相关应用的渗透率有望提升;2)基于苹果强大的生态体系,不同硬件间的数据可实现无缝链接,同时兼顾隐私保护,预计将提升AI功能使用体验,AI应用的使用频次及使用时长有望持续提升。2024年以来国内AI大模型及应用发展迅速,文心一言、Kimi、阶跃星辰、天工大模型等获得持续关注,随着苹果智能中国区的上线,有望推动国产优质AI大模型及应用加速发展。24年是AI多模态之年,持续看好多模态AI应用发展机会。

封面图片

多模态大模型 Monkey 发布升级版

多模态大模型Monkey发布升级版3月23日,记者从华中科技大学获悉,由该校联合武汉金山办公软件有限公司研究人员开发的Monkey多模态大模型已被人工智能领域国际顶级会议CVPR2024接收,且该大模型曾在大模型开源开放评测体系——“司南”多模态大模型排行榜中名列开源模型榜首。Monkey在文档领域的“升级版”——文字多模态大模型TextMonkey也于近日发布。

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人