谷歌发布史上最大的视觉语言模型 PaLM-E

谷歌发布史上最大的视觉语言模型PaLM-E谷歌PaLM-E有着5620亿参数(ChatGPT为1750亿参数)，结合了PaLM-540B语言模型与ViT-22B视觉模型。将现实世界的连续传感器模态直接纳入语言模型，"为AI移植眼睛"从而建立单词和感知之间的联系。PaLM-E直接从机器人摄像头获取原始图像数据，并根据自然语言指令进行动作规划和执行，这样就避免了人工预处理或标注数据的需要，可以端到端自主学习这些任务。研究团队同时发现：1.语言模型越大，在视觉语言和机器人任务训练时就越能保持其语言能力，PaLM-E的5620亿的参数量刚好让它保留住了几乎所有语言能力。2."通才AI"的正迁移能力，同时在多个任务领域训练的PaLM-E，单任务能力相比"专精AI"显着提高。3.除了人机交互方面有着重大进展，团队还发现了PaLM-E有着诸如多模态思维链推理和多图像推理等新兴能力，在OK-VQA视觉问答基准测试上达成了新的SOTA(最佳水平AI)。投稿：@ZaiHuabot频道：@TestFlightCN

在Telegram中查看

相关推荐

Google发布史上最大“通才”模型PaLM-E 看图说话还能操控机器人

Google发布史上最大“通才”模型PaLM-E看图说话还能操控机器人论文地址：https://arxiv.org/abs/2303.03378作为一种多模态具身视觉语言模型(VLM)，PaLM-E不仅可以理解图像，还能理解、生成语言，而且竟然还能将两者结合起来，处理复杂的机器人指令。此外，通过PaLM-540B语言模型与ViT-22B视觉Transformer模型相结合，PaLM-E最终的参数量高达5620亿。横跨机器人、视觉-语言领域的“通才”模型PaLM-E，全称PathwaysLanguageModelwithEmbodied，是一种具身视觉语言模型。它的强大之处在于，能够利用视觉数据来增强其语言处理能力。当我们训练出最大的视觉语言模型，并与机器人结合后，会发生什么？结果就是PaLM-E，一个5620亿参数、通用、具身的视觉语言通才——横跨机器人、视觉和语言据论文介绍，PaLM-E是一个仅有解码器的LLM，在给定前缀（prefix）或提示（prompt）下，能够以自回归方式生成文本补全。其训练数据为包含视觉、连续状态估计和文本输入编码的多模式语句。经过单个图像提示训练，PaLM-E不仅可以指导机器人完成各种复杂的任务，还可以生成描述图像的语言。可以说，PaLM-E展示了前所未有的灵活性和适应性，代表着一次重大飞跃，特别是人机交互领域。更重要的是，研究人员证明，通过在多个机器人和一般视觉语言的不同混合任务组合进行训练，可以带来从视觉语言转移到具身决策的几种方法，让机器人规划任务时能够有效地利用数据。除此之外，PaLM-E尤为突出的一点在于，拥有强大的正迁移能力。在不同领域训练的PaLM-E，包括互联网规模的一般视觉-语言任务，与执行单一任务机器人模型相比，性能明显提高。而在模型尺度上，研究人员则观察到了一个显著的优势。语言模型越大，在视觉语言与机器人任务的训练中，保持的语言能力就越强。从模型规模来看，5620亿参数的PaLM-E几乎保持了它所有的语言能力。尽管只在单个图像进行训练，但PaLM-E在多模态思维链推理和多图像推理等任务中表现出突出的能力。在OK-VQA基准上，PaLM-E取得了新的SOTA。测评结果在测试中，研究人员展示了如何使用PaLM-E在两个不同实体上执行规划以及长跨度的任务。值得注意的是，所有这些结果都是使用基于相同数据训练的相同模型获得的。在以前，机器人通常需要人工的协助才能完成长跨度任务。但现在，PaLM-E通过自主学习就可以搞定了。比如，“从抽屉里拿出薯片”这类指令中，就包括了多个计划步骤，以及来自机器人摄像头的视觉反馈。经过端到端训练的PaLM-E，可以直接从像素开始对机器人进行规划。由于模型被集成到一个控制回路中，所以机器人在拿薯片的过程中，对途中的干扰都有鲁棒性。人类：给我来点薯片。机器人：1.走到抽屉旁2.打开最上面的抽屉3.从最上面的抽屉里拿起绿色的薯片4.放在柜台上。同样，让机器人去拿一个苹果时，给出图片后，机器人执行任务步骤如下——人类：给我拿一个苹果。机器人：1.走向苹果2.拿起苹果3.把它拿给操作员4.放下苹果5.完成。除了执行长跨度任务，PaLM-E可以让机器人执行规划任务，比如排列积木。研究人员根据视觉和语言输入成功地进行多阶段的计划，并结合了长时间范围的视觉反馈，进而让模型能够成功地规划一个长周期的任务“将积木按颜色分类到不同的角落”。如下，在排列组合上，机器人化身为多面手，按颜色将积木排序。模型的泛化方面，PaLM-E控制的机器人可以把红色积木移到咖啡杯的旁边。值得一提的是，数据集只包含有咖啡杯的三个演示，但其中没有一个包括红色的积木块。类似的，虽然模型此前从未见过乌龟，但照样可以顺利地把绿色积木推到乌龟旁边在零样本推理方面，PaLM-E可以在给定图像的情况下讲述笑话，并展示了包括感知，基于视觉的对话和计划在内的能力。多张图的关系，PaLM-E也整得很明白，比如图一（左）在图二（右）的哪个位置。此外，PaLM-E还可以在给定带有手写数字的图像执行数学运算。比如，如下手写餐馆的菜单图，2张披萨需要多少钱，PaLM-E就直接给算出来了。以及一般的QA和标注等多种任务。最后，研究结果还表明，冻结语言模型是通向完全保留其语言能力的通用具身多模态模型的可行之路。但同时，研究人员还发现了一条解冻模型的替代路线，即扩大语言模型的规模可以显著减少灾难性遗忘。参考资料：https://palm-e.github.io/...PC版：https://www.cnbeta.com.tw/articles/soft/1348415.htm手机版：https://m.cnbeta.com.tw/view/1348415.htm

AI大战进入实体化阶段谷歌刚发布的PaLM-E模型有哪些亮点？

AI大战进入实体化阶段谷歌刚发布的PaLM-E模型有哪些亮点？（预印本论文，来源：谷歌、柏林工业大学）顾名思义，PaLM-E模型源自于谷歌的大型语言模型PaLM，E指的就是具象化（Embodied）。通过将通用语言模型与视觉转换模型ViT相结合，PaLM-E成功实现让AI同时具备“理解文字”和“读懂图片”的能力，不仅能够输出文字，还能输出指令使得机器人的智能化跃上一个新的台阶。研究人员介绍称，PaLM和ViT的结合，使得PaLM-E的参数量最高可达5620亿组，也是全球已知的最大视觉语言模型。回归到资本市场最关心的问题，这个听上去很厉害的AI模型，到底能干什么事情呢？对此研究人员也给出一系列案例，帮助外界理解这个模型的妙处。（PaLM-E模型的案例，来源：谷歌、柏林工业大学）首先，具备视觉属性的AI模型将拥有解读图片并进行思维推理的能力。例如可以通过一张禁行交通标志（除自行车外）的图片，来解答“我能否在这条马路上骑自行车”；通过OCR识别餐馆的手写菜单，能进行账单的计算；或是通过识别一系列烘焙材料的照片，向机器人传达“制作蛋糕胚”的流程。在AI模型与机器人结合的实验演示中，机器人得到“从抽屉里拿出米饼”的指令后，能够顺利地从十多个开放式抽屉中找到米饼，拿给研究人员。在后续的实验中，研究人员还要求机器人“将所有色块按颜色堆放到不同角落”的指令，以及将“绿色色块推到乌龟旁边”的指令，即便机器人之前没有见过这只乌龟摆件，也能顺利地完成任务。虽然从演示视频中来看，受限于演示机器人较为简单的设计，执行指令的时候仍显得“笨手笨脚”。但随着PaLM-E模型赋予机器思考如何执行人类指令的能力，工业应用和工业设计上的突破也指日可待。或许在不久的将来，就会出现一款风靡全球的智能机器人硬件。值得一提的是，作为AI大战的老对手，微软也已经在“图像+语言模型”的路数上有所布局。在今年2月底发表的研究中，微软就展现了如何使用ChatGPT为大疆Tello无人机编写“找饮料”程序的案例。 ...PC版：https://www.cnbeta.com.tw/articles/soft/1348493.htm手机版：https://m.cnbeta.com.tw/view/1348493.htm

谷歌发布AI语言模型PaLM 2 挑战OpenAI的GPT-4

谷歌发布AI语言模型PaLM2挑战OpenAI的GPT-4皮查伊称：“PaLM2在逻辑和推理方面进行了广泛的训练，具有极强的逻辑和推理能力。同时，它还接受了多语言文本训练，支持100多种语言。谷歌在2022年4月首次发布了PaLM语言模型。谷歌高级研究总监斯拉夫·彼得罗夫（SlavPetrov）称，最新的PaLM2在一系列基于文本的任务上表现更好，包括推理、编码和翻译等。他说：“与PaLM1相比，PaLM2有了显著提升。”对于PaLM2，谷歌工程师在一份研究论文中称，该系统的语言熟练程度“足以教授这门语言”。与其他大型语言模型一样，PaLM2与其说是一款单一产品，不如说是一系列产品。它拥有不同的版本，可部署在消费者和企业环境中。确切而言，PaLM2分为四种规格，从小到大依次为Gecko、Otter、Bison和Unicorn，依据特定领域的数据进行了微调，以执行企业客户的特定任务。其中，体积最小的Gecko可以在手机上运行，每秒可处理20个Token，大约相当于16或17个单词。谷歌还称，PaLM2已被用于支持自家的25项功能和产品，其中包括AI聊天机器人Bard，以及谷歌文档、幻灯片和工作表等。...PC版：https://www.cnbeta.com.tw/articles/soft/1359045.htm手机版：https://m.cnbeta.com.tw/view/1359045.htm

谷歌的又一波反击！开放大语言模型PaLM API

谷歌的又一波反击！开放大语言模型PaLMAPI但在今日，Google组织了第二波反击：开放自家的大语言模型API“PaLMAPI”，此外今天Google还发布了一款帮助开发者快速构建AI程序的工具MakerSuite。Google表示，此举是为了帮助开发者们快速构建生成式AI应用。但略为遗憾的是，Google目前是向选定的开发人员提供这些工具，而非全面开放。基于PaLM模型的API毫无疑问，PaLMAPI是今天Google发布的公告的核心。Google介绍称，PaLMAPI是Google大型语言模型的入口，可用于各种应用程序。它将为开发者提供面向对轮交互而优化的模型，如内容生成与对话。它也能为开发者提供摘要、分类等多种任务的通用模型。从名字可以开出，此次开放的大语言模型API是基于Google去年发布的PaLM。这是Google基于Pathways系统训练的一个5400亿参数的大型语言模型。为了训练这个模型，Google动用了6144块TPU，让Pathways在两个CloudTPUv4Pods上训练PaLM。强大的系统和算力投入带来了惊艳的结果。Google在数百个语言理解和生成任务上评估了PaLM，发现它在大多数任务上实现了SOTA少样本学习性能，可以出色地完成笑话解读、bug修复、从表情符号中猜电影等语言、代码任务。随着规模的增加，模型在处理多个任务时的性能逐渐提高，而且还在不断解锁新的能力关于PaLM，读者们可以查看论文《PaLM:ScalingLanguageModelingwithPathways》。此外，Google公告称，后续会开放更多规模与功能不同的模型。PaLM是Google选择的第一个版本，所以后续我们也可以期待下LAMDAAPI等。MakerSuite工具在过去的几年里，Google一直在构建和部署大型语言模型——从将MUM引入搜索到在AITestKitchen中使用LaMDA构建APP。Google表示，开发人员必须使用不同的工具来完成任务，例如制作和迭代prompt、生成合成数据以及精调自定义模型。MakerSuite是一种简化此工作流程的工具，让用户将能够根据prompt进行迭代，使用合成数据扩充数据集，并轻松调整自定义模型。当你准备好编程时，MakerSuite允许将prompt导出为你最喜欢的语言和框架（如Python和Node.js）的代码。Google表示，借助MakerSuite，你能够直接在浏览器中快速测试和迭代调整后的模型。最后补充一句我们观察到的结果：Google今日的两篇博客发布后，似乎已经引起了一些人的不满：并非全面开放、也没有定价。也许，可以说相比之前ChatGPTAPI的开放，Google这一波反击，也略显失败。...PC版：https://www.cnbeta.com.tw/articles/soft/1349461.htm手机版：https://m.cnbeta.com.tw/view/1349461.htm

Google最新发布PaLM 2，一种新的语言模型，具有更好的多语言和推理能力，同时比其前身PaLM更节省计算资源。

Google最新发布PaLM2，一种新的语言模型，具有更好的多语言和推理能力，同时比其前身PaLM更节省计算资源。PaLM2综合了多项研究进展，包括计算最优的模型和数据规模、更多样化和多语言的数据集、以及更有效的模型架构和目标函数。PaLM2在多种任务和能力上达到了最先进的性能，包括语言水平考试、分类和问答、推理、编程、翻译和自然语言生成等。PaLM2还展示了强大的多语言能力，能够处理数百种语言，并在不同语言之间进行翻译和解释。PaLM2还考虑了负责任的使用问题，包括推理时控制毒性、减少记忆化、评估潜在的伤害和偏见等。

谷歌砸出5620亿参数大模型机器人都能用学术圈已刷屏

谷歌砸出5620亿参数大模型机器人都能用学术圈已刷屏PaLM-E拥有5620亿参数，是GPT-3的三倍多，号称史上最大规模视觉语言模型。而它背后的打造团队，正是Google和柏林工业大学。作为一个能处理多模态信息的大模型，它还兼具非常强的逻辑思维。比如能从一堆图片里，判断出哪个是能滚动的。还会看图做算数：有人感慨：这项工作比ChatGPT离AGI更近一步啊！而另一边，微软其实也在尝试ChatGPT指挥机器人干活。这么看，Google是凭借PaLM-E一步到位了？逻辑性更强的大模型PaLM-E是将PaLM和ViT强强联合。5620亿的参数量，其实就是如上两个模型参数量相加而来（5400亿+220亿）。PaLM是Google在22年发布的语言大模型，它是Pathways架构训练出来的，能通过“思考过程提示”获得更准确的逻辑推理能力，减少AI生成内容中的错误和胡言乱语。Pathways是一种稀疏模型架构，是GoogleAI这两年重点发展方向之一，目标就是训练出可执行成千上百种任务的通用模型。ViT是计算机视觉领域的经典工作了，即VisionTransformer。两者结合后，PaLM-E可以处理多模态信息。包括：语言图像场景表征物体表征通过加一个编码器，模型可以将图像或传感器数据编码为一系列与语言标记大小相同的向量，将此作为输入用于下一个token预测，进行端到端训练。具体能力方面，PaLM-E表现出了比较强的逻辑性。比如给它一张图片，然后让它根据所看到的做出蛋糕。模型能先判断出图像中都有什么，然后分成9步讲了该如何制作蛋糕，从最初的磕鸡蛋到最后洗碗都包括在内。有人还调侃说，这机器人怎么在把蛋糕给我前先自己吃了？还有根据图片做判断：我能在这条路上骑自行车吗？模型进行一系列逻辑推断：1、不能进入2、除了自行车3、除了自行车以外都不能进入4、答案是可以这和人类思考的过程确实很像了。不仅如此，模型的最强大之处在于，它无需经过预处理，即提前理解环境。它做出判断和回答，完全是基于它自己的“经验”。研究人员表示，这项成果表现出了很强的正向迁移（positivetransfer）能力。在多个领域任务的训练中，PaLM-E的表现都优于单项任务机器人模型。而且他们还发现，语言模型的规模越大，它最终能保持的语言理解能力越强。比如使用5400亿参数规模的PaLM时，PaLM-E在语言任务上的实际能力仅下降了3.9%。从实验结果来看，PaLM-E在OK-VQA基准上达到新SOTA。在模拟环境下的任务完成度也都不错。再次验证大力出奇迹目前这项研究已引发非常广泛的讨论。主要在于以下几个方面：1、一定程度上验证了“大力出奇迹”2、比ChatGPT更接近AGI？一方面，作为目前已知的规模最大的视觉语言模型，PaLM-E的表现已经足够惊艳了。去年，DeepMind也发布过一个通才大模型Gota，在604个不同的任务上接受了训练。但当时有很多人认为它并不算真正意义上的通用，因为研究无法证明模型在不同任务之间发生了正向迁移。论文作者表示，这或许是因为模型规模还不够大。如今，PaLM-E似乎完成了这一论证。不过也有声音担心，这是不是把卷参数从NLP引到了CV圈？另一方面，是从大趋势上来看。有人表示，这项工作看上去要比ChatGPT更接近AGI啊。的确，用ChatGPT还只是提供文字建议，很多具体动手的事还要自己来。但PaLM-E属于把大模型能力拉入到具象化层面，AI和物理世界之间的结界要被打破了。而且这个趋势显然也是大家都在琢磨的，微软前不久也发布了一项非常相似的工作——让ChatGPT指挥机器人。除此之外，还有很多人表示，这再一次验证了多模态是未来。不过，这项成果现在只有论文和demo发布，真正能力有待验证。此外还有人发现，模型驱动的机器人，背后的开发团队在几周前被Google一锅端了……所以关于PaLM-E的更多后续，咱们还得再蹲蹲看。...PC版：https://www.cnbeta.com.tw/articles/soft/1348825.htm手机版：https://m.cnbeta.com.tw/view/1348825.htm

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人