苹果开放 AI 研究成果，发布多模态 LLM 模型 Ferret

苹果开放AI研究成果，发布多模态LLM模型Ferret苹果公司工作的研究人员和来自哥伦比亚大学的研究人员在10月份悄然推出了开源多模态LLM，这是一个名为"Ferret"的研究版本，可以使用图像区域进行查询。Ferret于10月份在Github上发布，在很大程度上没有引起人们的注意，也没有发布任何公开发布或宣传操作。Ferret的代码于10月30日与Ferret-Bench一起发布，并于12月14日推出了检查点版本。该模型可以分析图像上绘制的区域，确定其中对用户查询有用的元素，并将其识别出来，在检测到的元素周围绘制一个边界框。然后，它就可以将识别出的元素用作查询的一部分，并以典型的方式作出响应。从Github发布的信息中可以发现一个有趣的现象，Reddit的r/Apple发现Ferret是"在8个A100GPU和80GB内存上进行训练的"。鉴于苹果对NVIDIAGPU支持的历史，这被认为是对GPU生产商的罕见认可。投稿：@TNSubmbot频道：@TestFlightCN

在Telegram中查看

相关推荐

苹果开放AI研究成果，发布多模态LLM模型Ferret-IT之家https://www.ithome.com/0/741/312

苹果推出300亿参数多模态大模型全面转向生成式AI

苹果推出300亿参数多模态大模型全面转向生成式AI就在近日，苹果公司研发团队发布了一篇论文《MM1：Methods，Analysis&InsightsfromMultimodalLLMPre-training》，首次公布了多模态大模型MM1，展示了该公司在AI方面的进展与实力。据悉，MM1最高参数量为300亿，该模型支持增强的上下文学习和多图像推理，在一些多模态基准测试中有较好表现。研究人员使用这些模型进行实验，找出影响大模型表现的关键因素。有趣的是，图像分辨率和图像标签数量比视觉语言连接器的影响更大，不同的预训练数据集会显著影响模型的有效性。MM1的独特之处在于其庞大的规模和架构创新，包括密集的模型和混合专家模型。这些模型证明了研究人员方法的有效性，将大规模预训练与战略性数据选择相结合，以增强模型的学习能力。研发团队称，MM1不仅在预训练指标中是“最先进的”，并且在一系列已建立的多模态基准测试中，经过微调后也保持了“有竞争力的”性能。MM1可以支持增强的上下文学习和多图像推理，使得少数样本的思维链提示成为可能。然而，目前MM1的整体性能还没有完全超过谷歌的Gemini和OpenAI的GPT-4，虽然MM1可能还不是绝对的领导者，但它仍然是苹果在AI方面的一次重大飞跃。与此同时，苹果公司还出手收购了AI初创公司DarwinAI。DarwinAI以创建更小、更快的AI系统见长，这是实现设备上高效处理的关键因素。收购完成后，DarwinAI的网站和社交媒体账户已悄然下线。据悉，数十名DarwinAI员工已经加入了苹果的AI部门，作为交易的一部分，滑铁卢大学的AI研究员AlexanderWong已加入苹果，担任AI团队的总监。...PC版：https://www.cnbeta.com.tw/articles/soft/1424021.htm手机版：https://m.cnbeta.com.tw/view/1424021.htm

Apple发布大模型论文：多模式LLM预培训的方法、分析和见解

Apple发布大模型论文：多模式LLM预培训的方法、分析和见解2024年3月14日，苹果公司发布了自家的大型多模态基础模型MM1，该模型拥有高达300亿参数，并采用混合专家（MoE）架构。超过半数的论文作者是华人。MM1模型在多模态任务上显示出强大的性能，尤其是在少样本学习和上下文预测方面。研究团队通过对不同架构组件和数据选择的深入分析，提出了几条关键的设计准则。他们发现，图像分辨率、视觉编码器损失和容量，以及预训练数据的类型对模型性能有显著影响。MM1模型的开发，标志着苹果在生成式人工智能领域的重要进展。线索：@ZaiHuabot投稿：@TNSubmbot频道：@TestFlightCN

中信证券：谷歌 Gemini 模型发布，AI 进入多模态时代

中信证券：谷歌Gemini模型发布，AI进入多模态时代中信证券研报指出，近日，谷歌宣布发布新一代大模型Gemini，再次引发市场对人工智能产业的持续关注。Gemini模型作为谷歌以及全球范围内最先发布的多模态模型，在性能上是第一个在MMLU上超越人类专家的模型。模型根据体量大小分为GeminiUltra、GeminiPro、以及GeminiNano三个版本，支持在云端以及边缘测运行。同时谷歌同步发布最新版本的计算芯片TPUv5p，相较上一代TPUv4性价比提升2.3倍。我们认为，多模态Gemini模型的正式发布，一方面可以拓宽应用场景的拓展，另一方面能够带来算力需求的持续升级。我们持续看好后续AI产业的前景，认为后续GPT-5等模型的发布亦将带来更多的催化。

华泰证券：苹果中国区有望接入国产大模型，AI 多模态有望加速发展

华泰证券：苹果中国区有望接入国产大模型，AI多模态有望加速发展华泰证券认为，相较于AI产品的体验创新，苹果AI应用更多的意义在于：1）基于本地化数据，苹果AI可以真正做到以用户为中心，无缝集成至用户日常使用的体验中，或将深度改变用户的AI使用习惯，AI相关应用的渗透率有望提升；2）基于苹果强大的生态体系，不同硬件间的数据可实现无缝链接，同时兼顾隐私保护，预计将提升AI功能使用体验，AI应用的使用频次及使用时长有望持续提升。2024年以来国内AI大模型及应用发展迅速，文心一言、Kimi、阶跃星辰、天工大模型等获得持续关注，随着苹果智能中国区的上线，有望推动国产优质AI大模型及应用加速发展。24年是AI多模态之年，持续看好多模态AI应用发展机会。

多模态大模型 Monkey 发布升级版

多模态大模型Monkey发布升级版3月23日，记者从华中科技大学获悉，由该校联合武汉金山办公软件有限公司研究人员开发的Monkey多模态大模型已被人工智能领域国际顶级会议CVPR2024接收，且该大模型曾在大模型开源开放评测体系——“司南”多模态大模型排行榜中名列开源模型榜首。Monkey在文档领域的“升级版”——文字多模态大模型TextMonkey也于近日发布。

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人