TidyBot —— 开源机器人(使用大型语言模型的个性化辅助)

TidyBot——开源机器人(使用大型语言模型的个性化辅助机器人)TidyBot的出现是为了解决家庭清洁的问题,通过训练,它已经学会如何捡起物体并放到合适的位置。在实际场景的测试中,TidyBot可以成功收起85%的物体。这个项目的目标是将基于语言的规划和感知与大型语言模型(LLMs)的少量总结能力结合起来,让TidyBot推断出广泛适用于未来交互的用户偏好,建立能够通过事先与特定人的互动从少量的例子中学习这种偏好的系统。本次开源内容包括:•TidyBot的服务器代码(在GPU工作站上运行)•TidyBot的机器人代码(在移动基础电脑上运行)•3D打印部件的文件•基准数据集的代码可以看出来几乎是完全开源的状态了,智能机器人会是未来的一大热门,想尝试的人可以通过这个项目入手了。项目官网:https://tidybot.cs.princeton.edu/开源地址:https://github.com/jimmyyhwu/tidybot论文地址:https://arxiv.org/abs/2305.05658

相关推荐

封面图片

Google 公布了 PaLM-E 具身语言模型,562B 参数,将现实世界的信息通过传感器纳入语言模型,让机器人可以连续对物体

Google公布了PaLM-E具身语言模型,562B参数,将现实世界的信息通过传感器纳入语言模型,让机器人可以连续对物体进行适应性操作。https://palm-e.github.io视频中执行了一个长期指令“从抽屉里拿给我米饼”,其中包括多个计划步骤,并结合机器人摄像头的视觉反馈。最后,在同一台机器人上展示另一个例子,其中指令是“给我带一个绿色星星”。绿色星星是这个机器人没有直接接触过的物品。投稿:@ZaiHuabot频道:@TestFlightCN

封面图片

Mozilla最近推出了一个名为Llamafile的开源项目,其目的是让大众更容易使用开源的大语言模型(LLM)。

Mozilla最近推出了一个名为Llamafile的开源项目,其目的是让大众更容易使用开源的大语言模型(LLM)。Llamafile通过将LLM聊天机器人的全部复杂架构简化为一个可在六个操作系统上运行的单一可执行文件。它结合了和两个开源项目的功能。Mozilla希望Llamafile可以降低开发者和普通用户使用开源LLM的门槛,让更多人参与开源AI的发展,为商业化的封闭源LLM提供一个开源的可选方案。Llamafile也代表了“本地AI”的理念,即AI运行在本地设备上,由用户完全控制,不依赖网络,可以保护隐私。这有助于开源AI抵制大公司对AI的控制。

封面图片

Google希望机器人可以产生自己的代码

Google希望机器人可以产生自己的代码今天上午在纽约市举行的Google人工智能活动上展示的新研究提出了让机器人系统有效地编写自己的代码的概念。这个概念旨在为人类开发者省去在新信息出现时不得不进去重新编程的麻烦。该公司指出,现有的研究和训练有素的模型可以有效地实现这一概念。所有这些工作都可以证明是开发系统的基础,这些系统可以根据现实世界中遇到的对象和场景继续生成自己的代码。今天展示的新作品是代码即政策(CaP)。Google研究实习生JackyLiang和机器人研究科学家AndyZeng在一篇博文中指出:通过CaP,我们提议使用语言模型,通过提示直接编写机器人代码。我们的实验证明,与直接学习机器人任务和输出自然语言动作相比,输出代码可以更加泛化以及带来任务性能的提高。CaP允许单一系统执行各种复杂多样的机器人任务,而不需要特定的任务训练。如上所述,该系统还依赖于第三方库和API,以最佳方式生成适合特定场景的代码--以及对语言和表情符号的支持。这些API中可获取的信息是目前现有的限制之一。研究人员指出:"这些限制指出了未来工作的途径,包括扩展视觉语言模型以描述低级别的机器人行为(如轨迹),或将CaPs与探索算法相结合,可以自主地增加控制基元的集合"。作为今天公告的一部分,Google将发布一个可通过其GitHub网站访问的代码的开源版本,以建立其迄今为止提出的研究:https://code-as-policies.github.io/...PC版:https://www.cnbeta.com.tw/articles/soft/1331645.htm手机版:https://m.cnbeta.com.tw/view/1331645.htm

封面图片

为机器人安上“最强大脑” 谷歌VLA新模型泛化能力提升3倍 能“听懂人话”

为机器人安上“最强大脑”谷歌VLA新模型泛化能力提升3倍能“听懂人话”上文这个“抓起恐龙”的动作对于人类而言轻而易举,对于机器人而言却堪称一个重要飞跃——之前机器人经常无法操纵自己从未见过的东西,也难以实现从“灭绝的动物”到“塑料恐龙”的逻辑飞跃。作为一款新型视觉-语言-动作(vision-language-action,VLA)模型,RT-2可以从网络、机器人数据中学习,并将这些知识转化为机器人控制的通用指令。相较于其他机器人研究,RT-2的核心优势在于,其不仅能直接接收“人话”指令,听懂“人话”、理解“人话”,还能做出相应推理,并转为机器人能理解的分阶段指令,从而做出动作完成任务。RT-2完成的每一项任务,都要求其理解视觉语义概念、并通过控制机器人实现操作这些概念。例如接到“捡起桌子上快掉下去的袋子”、“将香蕉移动到2加1的总和处”这种指令时,机器人需要对相应物体/场景执行任务,而这些物体与场景它从未在机器人数据中见过,需要从网络数据中转化得到相应知识。总体而言,RT-2具备三大能力:符号理解(Symbolunderstanding)、推理(Reasoning)和人类识别(Humanrecognition)。(1)符号理解是指RT-2可以从视觉语言预训练中转移了语义知识,而这些语义知识在机器人数据中并不存在。这类指令示例包括“将苹果移到3号位置”或“将可乐罐推到心形上”。图符号理解指令示例(2)推理则是将VLM的各种推理能力用于任务控制,包括视觉推理(“将苹果移到相同颜色的杯子里”)、数学推理(“将X移到2加1之和的附近”)、多语言理解(“muevelamanzanaalvasoverde”,西班牙语)。图推理指令示例(3)人类识别是以人类为中心的理解和识别能力,RT-2可以完成“将可乐罐移到戴眼镜的人身边”这类任务。图人类识别指令示例此外,研究人员还将机器人控制与思维链推理相结合。首先用自然语言描述机器人即将采取的动作的目的,然后是“动作”和动作标记。例如在下图中,RT-2接收到的要求是“我想钉个钉子,场景里什么东西可能能用上?”,RT-2转化得出了“石头。动作:1129138122132132106127”的指令,并拿起了石头。RT-2还能更好地适用于不同的、机器此前没见过的场景。比起在大型数据集上预训练的RT-1、VisualCortex(VC-1)等模型,RT-2泛化能力大幅提高,较前者提高了3倍有余。加利福尼亚大学伯克利分校的机器人学教授KenGoldberg表示,机器人的灵巧性仍达不到人类水平,在一些基本任务上也会失败,但Google利用人工智能语言模型,赋予机器人推理和随机应变的新技能,是一个很有希望的突破。...PC版:https://www.cnbeta.com.tw/articles/soft/1374045.htm手机版:https://m.cnbeta.com.tw/view/1374045.htm

封面图片

谷歌PaLM-SayCan模型可让机器人更好地理解自然语言并执行复杂任务

谷歌PaLM-SayCan模型可让机器人更好地理解自然语言并执行复杂任务长期使用Alexa、Siri、GoogleAssistant等数字助理的朋友,或许已留意到这项技术正在变得愈加智能。与此同时,近年来的机器人技术也在突飞猛进。以谷歌为例,该公司有在演示一款乒乓球机器人,旨在训练其应对快速、自适应、且精确的任务挑战。Google研究员接触科学家兼机器人技术负责人VincentVanhoucke表示:“在一鸣惊人之前,你必须勤学苦练”。(图viaHajeKamps)在速度和精度之外,Google还希望通过实验,攻克人类语言和机器人技术的交叉点。截至目前,这家科技巨头已在自然语言水平上取得了让人印象深刻的飞跃。举个例子,你可能会对一个人说——“有空帮我从柜台拿一杯饮料吗?”尽管对于人类来说,这句话的语境相当简洁。但是对于一台机器人来说,其中包含的信息量很可能将其绊倒。因为‘有空’这词语可能不包含任何意义,也可能是趁着机器人正在干另一件时与之通过自然语言交互。如果机器人过度理解了字面含义,它可能会回答一句‘当然可以’——即便用户并未明确要求它这么做。若机器人更加钻牛角尖,它可能又会陷入该帮你拿哪一种饮料的纠结。好消息是,Google正在使用该公司的NLP系统拉解决一些问题。在Pathways语言模型(PaLM)的帮助下,机器人有望更准确地接收并理解人类的真实所想。下一阶段的挑战,则是审视机器人能够切实做到哪些事情。比如让你让机器人拾取冰箱顶部的一瓶清洁剂时,它是否会小心安全地摆放到儿童不易接触到的地方。不过在此之前,Google还是会着眼于更加普适性的任务。简单的有‘向前移动一米’,稍微高级点的可以是‘去厨房拿一罐可乐’。然后才是复杂多步任务的拆解执行,比如——‘啊哦,我不小心将可乐撒地板上了!能帮忙清理干净、并再给我拿一杯吗?’对此,Google选择的方案是利用语言“讲述”(Say)模型中所包含的知识,来帮助机器人确定并评估哪些高级指令“可否”(Can)派上用场。在融汇了PaLM语言模型之后,Google已将它重命名为PaLM-SayCan,且正在自家实验室使用来自EverydayRobots的一些机器人(上图展示其已学会何时去充电休息)。当然,在投入实际商用之前,这项技术显然还有相当多需要完善的地方,尤其是需要事先收集极其庞大的知识与技能数据集。PC版:https://www.cnbeta.com/articles/soft/1305589.htm手机版:https://m.cnbeta.com/view/1305589.htm

封面图片

基于 LLaMA 的 AI 聊天机器人开源实现

基于LLaMA的AI聊天机器人开源实现Meta的大语言模型LLaMA最近引起了广泛关注,它的一大优势是参数规模更小但性能强于OpenAI的GPT-3模型,而且能运行在单张显卡上,让普通消费者的硬件也有可能提供类似ChatGPT性能的AI聊天机器人。LLaMA是一组大语言模型的集合,其参数规模从70亿到650亿,它最新的LLaMA-13B模型有130亿个参数,不到GPT-3模型1750亿个参数的十分之一。现在AI推出了首个基于人类反馈强化学习的LLaMAAI聊天机器人开源实现。来源,前文:来自:雷锋频道:@kejiqu群组:@kejiquchat投稿:@kejiqubot

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人