Google DeepMind 发布视觉语言动作模型 RT-2
GoogleDeepMind发布视觉语言动作模型RT-2GoogleDeepMind今日发布了一种新的AI模型RoboticsTransformer2(RT-2),可以帮助训练机器人理解扔垃圾等任务。在论文中,谷歌介绍RT-2是一种新型视觉语言动作(VLA)模型,从网络和机器人数据中学习,并将这些知识转化为机器人控制的通用指令,同时保留网络规模能力。例如,可以帮助训练机器人理解扔垃圾等任务。RT-2表明,视觉语言模型(VLM)可以转换为强大的视觉语言动作(VLA)模型,该模型可以通过将VLM预训练与机器人数据相结合来直接控制机器人。RT-2不仅是对现有VLM模型的简单而有效的修改,而且还显示了构建通用物理机器人的前景,该机器人可以推理、解决问题和解释信息,以在现实世界中执行各种任务。论文:https://robotics-transformer2.github.io/assets/rt2.pdf来源:https://www.deepmind.com/blog/rt-2-new-model-translates-vision-and-language-into-action投稿:@ZaiHuaBot频道:@TestFlightCN
在Telegram中查看相关推荐
🔍 发送关键词来寻找群组、频道或视频。
启动SOSO机器人