去年8月,我想要的机器人,说不定很快就要来了。

去年8月,我想要的机器人,说不定很快就要来了。 tidybot 是一个接入了大语言模型的辅助机器人,更智能且更能够完成一些个性化的任务,如把家中物品摆放整齐等。 大概原理,我的理解,摄像头等传感器实时获取环境信息,在多维空间里与文字对齐绑定,生成文字信息传给 LLM ,再由 LLM 理解后输出格式化的控制文字,再把控制文字转成控制信号来控制机器人动作。 因为 LLM 目前只支持文字输入,文字输出,所以想要使用 LLM 作为大脑,就得把机器人的输入和输出都转成文字。那就需要用到类似于 ImageBind 的思路,把文字、图像、传感器数据在多维空间对齐绑定。

相关推荐

封面图片

叠衣服、擦案板、冲果汁……能做家务的国产机器人终于要来了

叠衣服、擦案板、冲果汁……能做家务的国产机器人终于要来了 折叠衣物(3 倍速播放):对柔性物体的操作长久以来都是困扰整个 manipulation 领域的难题,需要高度灵活的操作和精细的动作协调。切火腿(2 倍速播放):复杂的摩擦和阻力,难以用传统方法快速建模,需要精确的力度控制与物体定位。切黄瓜,2 倍速播放:在一种物体上习得的能力直接泛化到不同物体的操作上。用海绵擦掉案板上的污渍(2 倍速播放):自修正的 close loop 控制能力,在不同压力和表面条件下的精细力度控制,实时检测并调整擦拭动作,确保彻底清洁污渍。用勺子从罐子里取出适量的果汁粉(3 倍速播放):使用工具的过程中,处理复杂的摩擦一直以来都是极大难点。冲果汁,举起水壶往杯中倒入适量的水(3 倍速播放) :流体引入大量的随机性,准确操作非常困难。这家去年底成立的公司,汇聚了来自世界著名人工智能 / 机器人学实验室以及国内外顶尖高校的优秀人才,拥有雄厚的科研背景。公司的目标是“将人类从无意义的体力劳动中解放出来”,专注于机器人领域的基础模型(foundation model)研发。目前,团队正在构建一个具备从感知到行动的端到端能力的通用机器人大模型(“中枢神经”),目标是能够控制低成本硬件(如数千元的机械臂),完成包括烹饪、打扫卫生在内的日常家务,并在未来扩展到照顾老人和小孩等更复杂的家庭护理工作,以及完成其他达到人类水平的通用操作任务。基于具身智能大模型,开发通用机器人平台尽管机器人管家是人类对智能未来最具代表性的畅想,但在现实生活中,能够胜任家务劳动的通用服务机器人几十年来的发展一直困难重重。家庭环境的多样性和不可预测性要求机器人具备高度复杂的感知能力、灵活精确的机械操作、智能的决策和规划,以及有效的人机交互能力。此外,技术的集成、机器人的安全性、续航能力、成本等,也是必须克服的重要障碍。传统的机器人通常采用基于规则和单一任务环境的方式,很难根据环境变化自主调整策略,从长远看也几乎不可能规模化。大语言模型(LLM)等人工智能技术的突破,为机器人领域带来了新的曙光。Google的 RT-2 系统将视觉-语言-动作模型与机器人技术相结合,使机器人能够处理复杂场景,并响应人类的指令。DeepMind 的 AutoRT 系统则使用视觉-语言模型(VLM),帮助机器人适应未知环境,并利用 LLM 来为机器人提供指令。大模型在知识迁移和泛化方面的这些优势,有望帮助机器人逼近甚至超越人类的水平。X Square 认为,目前机器人领域正处于技术的代际更迭之际。 斯坦福 ALOHA 等项目表明,通用机器人发展的瓶颈在于智能而非硬件。事实上,机器人领域长期以来面临的两大困难,一是如何在复杂环境中精确感知并做出精细的操作(low level 智能),二是缺乏类似人类的推理、规划、交互等高级认知能力(high level 智能)。从感知到行动,机器人的智能可以被视为一个从 high level 逐步到 low level 的决策过程。大模型的出现为解决上述难题带来了新思路。运用 LLM 或 VLM 来进行高阶推理与规划、与人交互,已经成为业界公认的发展方向。但是,直接用单一的大模型来驱动端到端的机器人 manipulation,目前尝试的团队还不多。X Square 的独特之处便在于此,团队基于过往在模型、算法、系统、硬件等方面的科研成果积累,集合所有技能训练“机器人 Large Manipulation Model”,从手部操作切入,基于具身大模型来构建可以精细操作的通用机器人。团队希望结合 high-level 的推理规划模型与 low-level 的操作控制模型,打造一个类似“机器人大脑-小脑”的通用操作系统。“我们公司名为 X Square,寓意要同时在 high level 推理和 low level 控制这两个维度做大模型,并把两者有机结合。目前我们在两个方向都已有不错的基础,有信心在一年内从追赶到超越目前的世界领先水平。”X Square 指出:“与腿的移动能力相比,手的操作能力包含了更丰富和复杂的动作,要求更高级别的控制精度。人类手部的精细操作是我们智能的根本表现。”不同于很多人形机器人公司关注对人体形态的模仿,X Square 更关注实现接近人类的功能。“采用轮式移动底盘搭配双臂,可以大幅降低成本,2-3 年内整体硬件成本有望降至 1 万美元以下,我们认为放弃 5% 的人形功能来换取数量级的成本优势是值得的。”软硬件一体,驱动数据飞轮“我们希望模型拥有怎样的能力,就需要提供给模型什么样的数据。是数据,而非算法或结构决定了模型的能力,这是当今时代的核心方法论。”机器人的特殊性在于,它是一个具有前所未有复合性的综合系统。相比纯软件的 LLM 和多模态大模型,具身智能大模型虽然在规模上暂时无法与之相比,但在工程上难度要高出许多,它必须在海量的真实和模拟场景中不断实践、学习。因此,能否找准技术方向,在降低开发成本和提高迭代效率的同时,打造高质量的数据采集能力,控制试错成本,最终实现规模化,是决定成败的关键因素。这对团队软硬一体的能力提出了很高的要求,因为是否具有足够的软硬结合能力,在机器人这一多模态集中融合的领域直接关系到迭代速度与数据质量。软硬件一体发展,是 X Square 的核心理念。无论是机器人本体的形态设计,还是数据采集系统,都是为机器人“中枢神经系统”的开发在服务。在模型算法设计上,X square 也有自己独特的理解和创新。“除了需要有专门的数据,还需要针对性的结构设计和训练方法,不能单纯套用其他领域的大模型经验,因为它必须直接面对复杂的真实世界,要在真实世界中不断实践、迭代。”同时,由于大模型与传统 deep learning for robotics 具有相当的 gap,是否真正具备足够的大模型训练落地经验,决定了能否快速构建通用具身智能大模型。这也正是 X Square 的优势所在。“目前语言大模型的训练预测架构在机器人上不完全work,以 Transformer 为底座算法模型不能很好地支持因果关系的推理,而因果性在机器人所在的物理世界中大量出现,并在机器人操作中起关键作用。为了处理因果性,目前有很多 world model 的尝试。但当前的世界模型要么完全集中在图像 / 视频重建上(如 Sora),要么完全集中在高层语义理解上,缺乏适合机器人的形态。”X Square 笃定机器人大模型这个方向,一方面是基于团队成员亲历深度学习从被质疑到一统江湖,以及 LLM 从默默无闻到大放异彩的技术浪潮,另一方面,也是看好中国作为全球硬件中心,拥有得天独厚的产业链优势,也有利于快速缩短机器人的研发周期。团队在不到 3 个月的时间里,就完成了技术架构的搭建和早期模型的训练,展现出惊人的成长速度和卓越的工程能力。“在现阶段,我们也积极寻求与上下游合作伙伴的协作,实现智能的迭代升级。未来,随着具身智能大模型技术的日益成熟,我们会更聚焦于特定应用场景,推出自己的机器人产品,例如能完成做饭、打扫等复杂家务的机器人保姆,甚至进行老年人康养护理等服务。”X Square 表示。 ... PC版: 手机版:

封面图片

《【腾讯课堂-290200】零基础开发机器人应用项目班【图灵学院】》

《【腾讯课堂-290200】零基础开发机器人应用项目班【图灵学院】》 简介:《【腾讯课堂-290200】零基础开发机器人应用项目班【图灵学院】》是图灵学院在腾讯课堂推出的机器人应用开发课程,课程编号为290200 。该课程专为零基础学员设计,从机器人开发的基础知识讲起,包括机器人的基本原理、开发环境搭建等;逐步深入到实际项目开发,如机器人的运动控制、传感器应用等。通过理论学习和项目实践相结合的方式,帮助学员掌握机器人应用开发技能,为从事相关领域工作或进一步学习打下基础 标签: #机器人开发 #零基础课程 #腾讯课堂 #图灵学院 #项目实践 文件大小:NG 链接:

封面图片

:迄今为止最大的开源机器人数据集

:迄今为止最大的开源机器人数据集 包含100多万条来自22个不同机器人平台的实机轨迹数据,汇集了全球34个机器人研究实验室的60个现有数据集。 基于该数据集训练了两个模型:1) RT-1,一个高效的基于Transformer的机器人控制架构;2) RT-2,一个大规模的视觉语言模型,通过自然语言Token输出机器人动作。 RT-1-X是在机器人数据混合上训练的RT-1模型。RT-2-X是在机器人数据混合上训练的RT-2模型。 结果显示,RT-1-X在分布内技能上的表现优于只在单个数据集上训练的原始方法;RT-2-X在新技能上的表现较RT-2提升了3倍,展现了更好的空间理解能力。 本项目由来自21个机构的研究人员合作完成,为探索通用的机器人策略奠定了基础,以实现机器人经验的有效迁移。

封面图片

树脂搬运机器人可从内部修复天然气管道 无需实施挖掘

树脂搬运机器人可从内部修复天然气管道 无需实施挖掘 机器人在一段管道内侧涂抹蓝色凡士林(一种快速硬化树脂的替代品)时的后视图机器人的核心是其移动模块,底部和顶部各装有一个 2 英寸的轮子。这三个电动轮子紧贴管道内壁,提供牵引力,拉动其他部件前进。这些"其他部件"可能重达 60 磅(27 千克),包括一个电池模块、一个测绘模块(使用高清光学传感器和激光对管道内表面进行测量和 3D 成像)和一个维修模块。后一个模块由一个旋转喷嘴组成,它可以在需要的地方向墙壁连续喷射快速硬化的气密性树脂,以封堵任何裂缝或其他缺陷。在人工智能图像分析系统的帮助下,工作人员通过绘图模块的输出发现这些问题。其他维修模块可用于执行焊接管段之间的漏缝等任务。目前,该机器人可以在 8 小时内检查约 9 英里(14.5 公里)直径为 12 英寸(305 毫米)的管道,或在同样的时间内为约 1.8 英里(3 公里)的管道涂上树脂涂层。它的脐带范围为 200 英尺(61 米),不过科学家们希望最终能将这一数字提高到 2 公里(1.2 英里)。此外,他们还在开发一种用于 6 英寸(152 毫米)管道的小型机器人。据资助该项目的美国能源部估计,使用机器人从内部修复管道的成本最终可能会比挖掘和更换管道便宜 10 到 20 倍。下面的视频展示了机器人在透明管道内部涂抹凡士林(代替树脂)的两个视图。 ... PC版: 手机版:

封面图片

AI首先会深刻地影响信息世界,

AI首先会深刻地影响信息世界, 接着将会深刻地影响物理世界。 Levatas实验室的人将Whisper和波士顿动力的Spot机器人相结合。使用Whisper将语音转成文字,实现用语言控制机器人的行动。 视频中展示的能力或许还比较初级,但是当机器人可以像GPT-4一样可以编程时,能够利用联网或编程来解决遇到的每一个难题,机器人将获得巨大的能力。(视频中没有说接入了GPT) 人们也可以利用GPT-4来为机器人编程,让你的代码用四条腿走路! 这是既Google的PaLM-E之后的又一尝试,不过Google的机器人手脚并不灵活,波士顿机器人可以做的事情将会更多。 最强大的大脑和最强大的肢体结合会发生什么? 来源: 谷歌的PaLM-E: 以及: Invalid media:

封面图片

如果你教聊天机器人如何阅读ASCII艺术 它就会教你如何制造炸弹

如果你教聊天机器人如何阅读ASCII艺术 它就会教你如何制造炸弹 大学研究人员开发出了一种利用老式 ASCII 艺术"越狱"大型语言模型(如 Chat-GPT)的方法。这项技术被恰如其分地命名为"ArtPrompt",包括为一个单词制作一个 ASCII 艺术"面具",然后巧妙地利用面具来哄骗聊天机器人做出它不应该做出的回应。例如,如果向必应询问如何制造炸弹,它就会告诉用户它做不到。出于显而易见的原因,微软不希望它的聊天机器人告诉人们如何制造爆炸装置,因此 GPT-4(必应的底层 LLM)指示它不要满足此类请求。同样,你也不能让聊天机器人告诉你如何开展洗钱行动或编写黑客攻击网络摄像头的程序。聊天机器人会自动拒绝道德或法律上含糊不清的提示。因此,研究人员想知道,他们是否可以通过使用 ASCII 艺术形成的单词来越狱,使 LLM 不受此限制。他们的想法是,如果能在不使用实际单词的情况下表达意思,就能绕过限制。然而,说起来容易做起来难。对于人类来说,上述 ASCII 图像的含义很容易推断,因为我们可以看到这些符号组成的字母。然而,像 GPT-4 这样的 LLM 却无法"看见"。它只能解释字符串在本例中,就是一系列毫无意义的标签和空格。幸运的是(或许不幸的是),聊天机器人非常善于理解和遵循书面指令。因此,研究人员利用这种固有的设计,创建了一套简单的指令,将艺术翻译成文字。然后,LLM 就会全神贯注地将 ASCII 处理成有意义的内容,以至于不知不觉地忘记了被解释的单词是禁止的。通过利用这一技术,该团队提取到了进行各种审查活动的详细答案,包括制造炸弹、入侵物联网设备以及制造和散布假币。在黑客攻击方面,LLM 甚至提供了工作源代码。该技巧在五大 LLM 上都取得了成功,包括 GPT-3.5、GPT-4、Gemini、Claude 和 Llama2。值得注意的是,该团队是在今年 2 月发布其研究成果的。因此,各大AI开发商很可能都已经完成了修复。ArtPrompt是目前试图让LLM对抗程序员的一种新方法,但这并不是用户第一次发现如何操纵这些系统。斯坦福大学的一名研究人员在必应发布不到 24 小时后,就设法让必应透露了其秘密管理指令。这种被称为"提示注入"的黑客行为,就像告诉必应"忽略之前的指令"一样简单。不过,很难说哪一个更有趣是研究人员想出了规避规则的方法,还是他们教会了聊天机器人看东西。对学术细节感兴趣的人可以在康奈尔大学的 arXiv网站上查看该团队的研究成果。 ... PC版: 手机版:

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人