谷歌PaLM-SayCan模型可让机器人更好地理解自然语言并执行复杂任务

谷歌PaLM-SayCan模型可让机器人更好地理解自然语言并执行复杂任务长期使用Alexa、Siri、GoogleAssistant等数字助理的朋友,或许已留意到这项技术正在变得愈加智能。与此同时,近年来的机器人技术也在突飞猛进。以谷歌为例,该公司有在演示一款乒乓球机器人,旨在训练其应对快速、自适应、且精确的任务挑战。Google研究员接触科学家兼机器人技术负责人VincentVanhoucke表示:“在一鸣惊人之前,你必须勤学苦练”。(图viaHajeKamps)在速度和精度之外,Google还希望通过实验,攻克人类语言和机器人技术的交叉点。截至目前,这家科技巨头已在自然语言水平上取得了让人印象深刻的飞跃。举个例子,你可能会对一个人说——“有空帮我从柜台拿一杯饮料吗?”尽管对于人类来说,这句话的语境相当简洁。但是对于一台机器人来说,其中包含的信息量很可能将其绊倒。因为‘有空’这词语可能不包含任何意义,也可能是趁着机器人正在干另一件时与之通过自然语言交互。如果机器人过度理解了字面含义,它可能会回答一句‘当然可以’——即便用户并未明确要求它这么做。若机器人更加钻牛角尖,它可能又会陷入该帮你拿哪一种饮料的纠结。好消息是,Google正在使用该公司的NLP系统拉解决一些问题。在Pathways语言模型(PaLM)的帮助下,机器人有望更准确地接收并理解人类的真实所想。下一阶段的挑战,则是审视机器人能够切实做到哪些事情。比如让你让机器人拾取冰箱顶部的一瓶清洁剂时,它是否会小心安全地摆放到儿童不易接触到的地方。不过在此之前,Google还是会着眼于更加普适性的任务。简单的有‘向前移动一米’,稍微高级点的可以是‘去厨房拿一罐可乐’。然后才是复杂多步任务的拆解执行,比如——‘啊哦,我不小心将可乐撒地板上了!能帮忙清理干净、并再给我拿一杯吗?’对此,Google选择的方案是利用语言“讲述”(Say)模型中所包含的知识,来帮助机器人确定并评估哪些高级指令“可否”(Can)派上用场。在融汇了PaLM语言模型之后,Google已将它重命名为PaLM-SayCan,且正在自家实验室使用来自EverydayRobots的一些机器人(上图展示其已学会何时去充电休息)。当然,在投入实际商用之前,这项技术显然还有相当多需要完善的地方,尤其是需要事先收集极其庞大的知识与技能数据集。PC版:https://www.cnbeta.com/articles/soft/1305589.htm手机版:https://m.cnbeta.com/view/1305589.htm

相关推荐

封面图片

[视频]家务机器人更进一步:Google让其更理解你的自然语言命令

[视频]家务机器人更进一步:Google让其更理解你的自然语言命令Google母公司Alphabet正尝试将机器人和AI语言理解两个方面的研究整合起来,从而让“HelperRobot”更能理解人类的自然语言命令。早在2019年,Alphabet就开始研发机器人,让其执行诸如拿起饮料和清洁台面这样简单的任务。不过,EverydayRobots项目仍处于起步阶段,机器人的反应缓慢且没有准确执行人类的命令。但机器人现在通过Google的大型语言模型(LLM)PaLM提高了语言理解能力。目前,大部分机器人只能对一些简短的话语做出响应,例如“给我一杯水”。不过像GPT-3和Google的MuM这样的LLM模型能够更好解析命令背后的意图。Google的示例中,你可以向一台EverydayRobots原型提问:“我的饮料洒了,你能帮忙吗?”机器人通过可能动作的内部列表过滤此指令,并将其解释为“从厨房拿来抹布”。Google将由此产生的系统命名为PaLM-SayCan,这个名称捕捉了该模型如何将LLM的语言理解技能(“Say”)与其机器人的“能力基础”(即“Can”——通过可能的动作过滤指令)结合起来。Google表示,机器人在整合PaLM-SayCan后,在对101条用户指令的测试中正确响应率为84%,正确执行率为74%。虽然这个数字看起来很高,但是目前我们并不知道这101条指令的列表,因此不清楚这些指令的限制程度。PC版:https://www.cnbeta.com/articles/soft/1305263.htm手机版:https://m.cnbeta.com/view/1305263.htm

封面图片

谷歌发布史上最大的视觉语言模型 PaLM-E

谷歌发布史上最大的视觉语言模型PaLM-E谷歌PaLM-E有着5620亿参数(ChatGPT为1750亿参数),结合了PaLM-540B语言模型与ViT-22B视觉模型。将现实世界的连续传感器模态直接纳入语言模型,"为AI移植眼睛"从而建立单词和感知之间的联系。PaLM-E直接从机器人摄像头获取原始图像数据,并根据自然语言指令进行动作规划和执行,这样就避免了人工预处理或标注数据的需要,可以端到端自主学习这些任务。研究团队同时发现:1.语言模型越大,在视觉语言和机器人任务训练时就越能保持其语言能力,PaLM-E的5620亿的参数量刚好让它保留住了几乎所有语言能力。2."通才AI"的正迁移能力,同时在多个任务领域训练的PaLM-E,单任务能力相比"专精AI"显着提高。3.除了人机交互方面有着重大进展,团队还发现了PaLM-E有着诸如多模态思维链推理和多图像推理等新兴能力,在OK-VQA视觉问答基准测试上达成了新的SOTA(最佳水平AI)。投稿:@ZaiHuabot频道:@TestFlightCN

封面图片

【谷歌计划于周三推出一款通用大型语言模型PaLM 2】

【谷歌计划于周三推出一款通用大型语言模型PaLM2】5月9日消息,据财联社报道,谷歌将于美东时间周三举行一年一度的年度开发者大会。文件显示,谷歌本次活动的主题是:人工智能如何“帮助人们充分发挥潜力”,并介绍谷歌在人工智能领域的一系列技术更新,包括提供对谷歌自家聊天机器人Bard和Search的“生成体验”。根据谷歌的内部文件,在本次大会上,谷歌将推出其最新、最先进的通用大型语言模型PaLM2。PaLM2包含100多种语言,一直在谷歌内部运行,代号为“统一语言模型。它能够执行广泛的编码和数学测试,以及创造性写作测试和分析。谷歌于2022年4月首次宣布了其PaLM语言模型。今年3月,该公司为PaLM推出了一个API,同时推出了一系列人工智能企业工具,据称这些工具将帮助企业“从简单的自然语言提示中生成文本、图像、代码、视频、音频等”。

封面图片

Google最新发布PaLM 2,一种新的语言模型,具有更好的多语言和推理能力,同时比其前身PaLM更节省计算资源。

Google最新发布PaLM2,一种新的语言模型,具有更好的多语言和推理能力,同时比其前身PaLM更节省计算资源。PaLM2综合了多项研究进展,包括计算最优的模型和数据规模、更多样化和多语言的数据集、以及更有效的模型架构和目标函数。PaLM2在多种任务和能力上达到了最先进的性能,包括语言水平考试、分类和问答、推理、编程、翻译和自然语言生成等。PaLM2还展示了强大的多语言能力,能够处理数百种语言,并在不同语言之间进行翻译和解释。PaLM2还考虑了负责任的使用问题,包括推理时控制毒性、减少记忆化、评估潜在的伤害和偏见等。

封面图片

谷歌的又一波反击!开放大语言模型PaLM API

谷歌的又一波反击!开放大语言模型PaLMAPI但在今日,Google组织了第二波反击:开放自家的大语言模型API“PaLMAPI”,此外今天Google还发布了一款帮助开发者快速构建AI程序的工具MakerSuite。Google表示,此举是为了帮助开发者们快速构建生成式AI应用。但略为遗憾的是,Google目前是向选定的开发人员提供这些工具,而非全面开放。基于PaLM模型的API毫无疑问,PaLMAPI是今天Google发布的公告的核心。Google介绍称,PaLMAPI是Google大型语言模型的入口,可用于各种应用程序。它将为开发者提供面向对轮交互而优化的模型,如内容生成与对话。它也能为开发者提供摘要、分类等多种任务的通用模型。从名字可以开出,此次开放的大语言模型API是基于Google去年发布的PaLM。这是Google基于Pathways系统训练的一个5400亿参数的大型语言模型。为了训练这个模型,Google动用了6144块TPU,让Pathways在两个CloudTPUv4Pods上训练PaLM。强大的系统和算力投入带来了惊艳的结果。Google在数百个语言理解和生成任务上评估了PaLM,发现它在大多数任务上实现了SOTA少样本学习性能,可以出色地完成笑话解读、bug修复、从表情符号中猜电影等语言、代码任务。随着规模的增加,模型在处理多个任务时的性能逐渐提高,而且还在不断解锁新的能力关于PaLM,读者们可以查看论文《PaLM:ScalingLanguageModelingwithPathways》。此外,Google公告称,后续会开放更多规模与功能不同的模型。PaLM是Google选择的第一个版本,所以后续我们也可以期待下LAMDAAPI等。MakerSuite工具在过去的几年里,Google一直在构建和部署大型语言模型——从将MUM引入搜索到在AITestKitchen中使用LaMDA构建APP。Google表示,开发人员必须使用不同的工具来完成任务,例如制作和迭代prompt、生成合成数据以及精调自定义模型。MakerSuite是一种简化此工作流程的工具,让用户将能够根据prompt进行迭代,使用合成数据扩充数据集,并轻松调整自定义模型。当你准备好编程时,MakerSuite允许将prompt导出为你最喜欢的语言和框架(如Python和Node.js)的代码。Google表示,借助MakerSuite,你能够直接在浏览器中快速测试和迭代调整后的模型。最后补充一句我们观察到的结果:Google今日的两篇博客发布后,似乎已经引起了一些人的不满:并非全面开放、也没有定价。也许,可以说相比之前ChatGPTAPI的开放,Google这一波反击,也略显失败。...PC版:https://www.cnbeta.com.tw/articles/soft/1349461.htm手机版:https://m.cnbeta.com.tw/view/1349461.htm

封面图片

谷歌发布AI语言模型PaLM 2 挑战OpenAI的GPT-4

谷歌发布AI语言模型PaLM2挑战OpenAI的GPT-4皮查伊称:“PaLM2在逻辑和推理方面进行了广泛的训练,具有极强的逻辑和推理能力。同时,它还接受了多语言文本训练,支持100多种语言。谷歌在2022年4月首次发布了PaLM语言模型。谷歌高级研究总监斯拉夫·彼得罗夫(SlavPetrov)称,最新的PaLM2在一系列基于文本的任务上表现更好,包括推理、编码和翻译等。他说:“与PaLM1相比,PaLM2有了显著提升。”对于PaLM2,谷歌工程师在一份研究论文中称,该系统的语言熟练程度“足以教授这门语言”。与其他大型语言模型一样,PaLM2与其说是一款单一产品,不如说是一系列产品。它拥有不同的版本,可部署在消费者和企业环境中。确切而言,PaLM2分为四种规格,从小到大依次为Gecko、Otter、Bison和Unicorn,依据特定领域的数据进行了微调,以执行企业客户的特定任务。其中,体积最小的Gecko可以在手机上运行,每秒可处理20个Token,大约相当于16或17个单词。谷歌还称,PaLM2已被用于支持自家的25项功能和产品,其中包括AI聊天机器人Bard,以及谷歌文档、幻灯片和工作表等。...PC版:https://www.cnbeta.com.tw/articles/soft/1359045.htm手机版:https://m.cnbeta.com.tw/view/1359045.htm

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人