谷歌PaLM-SayCan模型可让机器人更好地理解自然语言并执行复杂任务

谷歌PaLM-SayCan模型可让机器人更好地理解自然语言并执行复杂任务长期使用Alexa、Siri、GoogleAssistant等数字助理的朋友，或许已留意到这项技术正在变得愈加智能。与此同时，近年来的机器人技术也在突飞猛进。以谷歌为例，该公司有在演示一款乒乓球机器人，旨在训练其应对快速、自适应、且精确的任务挑战。Google研究员接触科学家兼机器人技术负责人VincentVanhoucke表示：“在一鸣惊人之前，你必须勤学苦练”。（图viaHajeKamps）在速度和精度之外，Google还希望通过实验，攻克人类语言和机器人技术的交叉点。截至目前，这家科技巨头已在自然语言水平上取得了让人印象深刻的飞跃。举个例子，你可能会对一个人说——“有空帮我从柜台拿一杯饮料吗？”尽管对于人类来说，这句话的语境相当简洁。但是对于一台机器人来说，其中包含的信息量很可能将其绊倒。因为‘有空’这词语可能不包含任何意义，也可能是趁着机器人正在干另一件时与之通过自然语言交互。如果机器人过度理解了字面含义，它可能会回答一句‘当然可以’——即便用户并未明确要求它这么做。若机器人更加钻牛角尖，它可能又会陷入该帮你拿哪一种饮料的纠结。好消息是，Google正在使用该公司的NLP系统拉解决一些问题。在Pathways语言模型（PaLM）的帮助下，机器人有望更准确地接收并理解人类的真实所想。下一阶段的挑战，则是审视机器人能够切实做到哪些事情。比如让你让机器人拾取冰箱顶部的一瓶清洁剂时，它是否会小心安全地摆放到儿童不易接触到的地方。不过在此之前，Google还是会着眼于更加普适性的任务。简单的有‘向前移动一米’，稍微高级点的可以是‘去厨房拿一罐可乐’。然后才是复杂多步任务的拆解执行，比如——‘啊哦，我不小心将可乐撒地板上了！能帮忙清理干净、并再给我拿一杯吗？’对此，Google选择的方案是利用语言“讲述”（Say）模型中所包含的知识，来帮助机器人确定并评估哪些高级指令“可否”（Can）派上用场。在融汇了PaLM语言模型之后，Google已将它重命名为PaLM-SayCan，且正在自家实验室使用来自EverydayRobots的一些机器人（上图展示其已学会何时去充电休息）。当然，在投入实际商用之前，这项技术显然还有相当多需要完善的地方，尤其是需要事先收集极其庞大的知识与技能数据集。PC版：https://www.cnbeta.com/articles/soft/1305589.htm手机版：https://m.cnbeta.com/view/1305589.htm

在Telegram中查看

相关推荐

[视频]家务机器人更进一步：Google让其更理解你的自然语言命令

[视频]家务机器人更进一步：Google让其更理解你的自然语言命令Google母公司Alphabet正尝试将机器人和AI语言理解两个方面的研究整合起来，从而让“HelperRobot”更能理解人类的自然语言命令。早在2019年，Alphabet就开始研发机器人，让其执行诸如拿起饮料和清洁台面这样简单的任务。不过，EverydayRobots项目仍处于起步阶段，机器人的反应缓慢且没有准确执行人类的命令。但机器人现在通过Google的大型语言模型(LLM)PaLM提高了语言理解能力。目前，大部分机器人只能对一些简短的话语做出响应，例如“给我一杯水”。不过像GPT-3和Google的MuM这样的LLM模型能够更好解析命令背后的意图。Google的示例中，你可以向一台EverydayRobots原型提问：“我的饮料洒了，你能帮忙吗？”机器人通过可能动作的内部列表过滤此指令，并将其解释为“从厨房拿来抹布”。Google将由此产生的系统命名为PaLM-SayCan，这个名称捕捉了该模型如何将LLM的语言理解技能（“Say”）与其机器人的“能力基础”（即“Can”——通过可能的动作过滤指令）结合起来。Google表示，机器人在整合PaLM-SayCan后，在对101条用户指令的测试中正确响应率为84%，正确执行率为74%。虽然这个数字看起来很高，但是目前我们并不知道这101条指令的列表，因此不清楚这些指令的限制程度。PC版：https://www.cnbeta.com/articles/soft/1305263.htm手机版：https://m.cnbeta.com/view/1305263.htm

谷歌发布史上最大的视觉语言模型 PaLM-E

谷歌发布史上最大的视觉语言模型PaLM-E谷歌PaLM-E有着5620亿参数(ChatGPT为1750亿参数)，结合了PaLM-540B语言模型与ViT-22B视觉模型。将现实世界的连续传感器模态直接纳入语言模型，"为AI移植眼睛"从而建立单词和感知之间的联系。PaLM-E直接从机器人摄像头获取原始图像数据，并根据自然语言指令进行动作规划和执行，这样就避免了人工预处理或标注数据的需要，可以端到端自主学习这些任务。研究团队同时发现：1.语言模型越大，在视觉语言和机器人任务训练时就越能保持其语言能力，PaLM-E的5620亿的参数量刚好让它保留住了几乎所有语言能力。2."通才AI"的正迁移能力，同时在多个任务领域训练的PaLM-E，单任务能力相比"专精AI"显着提高。3.除了人机交互方面有着重大进展，团队还发现了PaLM-E有着诸如多模态思维链推理和多图像推理等新兴能力，在OK-VQA视觉问答基准测试上达成了新的SOTA(最佳水平AI)。投稿：@ZaiHuabot频道：@TestFlightCN

【谷歌计划于周三推出一款通用大型语言模型PaLM 2】

【谷歌计划于周三推出一款通用大型语言模型PaLM2】5月9日消息，据财联社报道，谷歌将于美东时间周三举行一年一度的年度开发者大会。文件显示，谷歌本次活动的主题是：人工智能如何“帮助人们充分发挥潜力”，并介绍谷歌在人工智能领域的一系列技术更新，包括提供对谷歌自家聊天机器人Bard和Search的“生成体验”。根据谷歌的内部文件，在本次大会上，谷歌将推出其最新、最先进的通用大型语言模型PaLM2。PaLM2包含100多种语言，一直在谷歌内部运行，代号为“统一语言模型。它能够执行广泛的编码和数学测试，以及创造性写作测试和分析。谷歌于2022年4月首次宣布了其PaLM语言模型。今年3月，该公司为PaLM推出了一个API，同时推出了一系列人工智能企业工具，据称这些工具将帮助企业“从简单的自然语言提示中生成文本、图像、代码、视频、音频等”。

Google最新发布PaLM 2，一种新的语言模型，具有更好的多语言和推理能力，同时比其前身PaLM更节省计算资源。

Google最新发布PaLM2，一种新的语言模型，具有更好的多语言和推理能力，同时比其前身PaLM更节省计算资源。PaLM2综合了多项研究进展，包括计算最优的模型和数据规模、更多样化和多语言的数据集、以及更有效的模型架构和目标函数。PaLM2在多种任务和能力上达到了最先进的性能，包括语言水平考试、分类和问答、推理、编程、翻译和自然语言生成等。PaLM2还展示了强大的多语言能力，能够处理数百种语言，并在不同语言之间进行翻译和解释。PaLM2还考虑了负责任的使用问题，包括推理时控制毒性、减少记忆化、评估潜在的伤害和偏见等。

谷歌的又一波反击！开放大语言模型PaLM API

谷歌的又一波反击！开放大语言模型PaLMAPI但在今日，Google组织了第二波反击：开放自家的大语言模型API“PaLMAPI”，此外今天Google还发布了一款帮助开发者快速构建AI程序的工具MakerSuite。Google表示，此举是为了帮助开发者们快速构建生成式AI应用。但略为遗憾的是，Google目前是向选定的开发人员提供这些工具，而非全面开放。基于PaLM模型的API毫无疑问，PaLMAPI是今天Google发布的公告的核心。Google介绍称，PaLMAPI是Google大型语言模型的入口，可用于各种应用程序。它将为开发者提供面向对轮交互而优化的模型，如内容生成与对话。它也能为开发者提供摘要、分类等多种任务的通用模型。从名字可以开出，此次开放的大语言模型API是基于Google去年发布的PaLM。这是Google基于Pathways系统训练的一个5400亿参数的大型语言模型。为了训练这个模型，Google动用了6144块TPU，让Pathways在两个CloudTPUv4Pods上训练PaLM。强大的系统和算力投入带来了惊艳的结果。Google在数百个语言理解和生成任务上评估了PaLM，发现它在大多数任务上实现了SOTA少样本学习性能，可以出色地完成笑话解读、bug修复、从表情符号中猜电影等语言、代码任务。随着规模的增加，模型在处理多个任务时的性能逐渐提高，而且还在不断解锁新的能力关于PaLM，读者们可以查看论文《PaLM:ScalingLanguageModelingwithPathways》。此外，Google公告称，后续会开放更多规模与功能不同的模型。PaLM是Google选择的第一个版本，所以后续我们也可以期待下LAMDAAPI等。MakerSuite工具在过去的几年里，Google一直在构建和部署大型语言模型——从将MUM引入搜索到在AITestKitchen中使用LaMDA构建APP。Google表示，开发人员必须使用不同的工具来完成任务，例如制作和迭代prompt、生成合成数据以及精调自定义模型。MakerSuite是一种简化此工作流程的工具，让用户将能够根据prompt进行迭代，使用合成数据扩充数据集，并轻松调整自定义模型。当你准备好编程时，MakerSuite允许将prompt导出为你最喜欢的语言和框架（如Python和Node.js）的代码。Google表示，借助MakerSuite，你能够直接在浏览器中快速测试和迭代调整后的模型。最后补充一句我们观察到的结果：Google今日的两篇博客发布后，似乎已经引起了一些人的不满：并非全面开放、也没有定价。也许，可以说相比之前ChatGPTAPI的开放，Google这一波反击，也略显失败。...PC版：https://www.cnbeta.com.tw/articles/soft/1349461.htm手机版：https://m.cnbeta.com.tw/view/1349461.htm

谷歌发布AI语言模型PaLM 2 挑战OpenAI的GPT-4

谷歌发布AI语言模型PaLM2挑战OpenAI的GPT-4皮查伊称：“PaLM2在逻辑和推理方面进行了广泛的训练，具有极强的逻辑和推理能力。同时，它还接受了多语言文本训练，支持100多种语言。谷歌在2022年4月首次发布了PaLM语言模型。谷歌高级研究总监斯拉夫·彼得罗夫（SlavPetrov）称，最新的PaLM2在一系列基于文本的任务上表现更好，包括推理、编码和翻译等。他说：“与PaLM1相比，PaLM2有了显著提升。”对于PaLM2，谷歌工程师在一份研究论文中称，该系统的语言熟练程度“足以教授这门语言”。与其他大型语言模型一样，PaLM2与其说是一款单一产品，不如说是一系列产品。它拥有不同的版本，可部署在消费者和企业环境中。确切而言，PaLM2分为四种规格，从小到大依次为Gecko、Otter、Bison和Unicorn，依据特定领域的数据进行了微调，以执行企业客户的特定任务。其中，体积最小的Gecko可以在手机上运行，每秒可处理20个Token，大约相当于16或17个单词。谷歌还称，PaLM2已被用于支持自家的25项功能和产品，其中包括AI聊天机器人Bard，以及谷歌文档、幻灯片和工作表等。...PC版：https://www.cnbeta.com.tw/articles/soft/1359045.htm手机版：https://m.cnbeta.com.tw/view/1359045.htm

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人