丰田正在 "机器人幼儿园"制造AI训练的早餐

丰田正在"机器人幼儿园"制造AI训练的早餐机器人研究人员说，触觉是"一个关键的推动因素"。通过让机器人伸出你在下面视频中看到的枕头般的大拇指（我的说法，不是他们的），模型就能"感觉"到自己在做什么，从而获得更多信息。这就使困难的任务比单靠视觉更容易完成。实验室灵巧操作部经理本-伯奇菲尔（BenBurchfiel）说，"看到它们与环境互动，令人激动"。首先，"老师"演示一套技能，然后"在几个小时内"，模型在后台学习。他补充说："我们经常在下午教一个机器人，让它学习一夜，然后在第二天早上就可以看到它的新行为"。研究人员说，他们正试图为机器人创建"大型行为模型"（LargeBehaviorModels），或称LBM。麻省理工学院机器人学教授、TRI公司机器人研究副总裁拉斯-泰德雷克（RussTedrake）说："与通过记录人类书写模式来训练LLM类似，丰田的LBM将通过观察来学习，然后"泛化，执行一项它们从未被教授过的新技能"。研究人员说，利用这一过程，他们已经训练了60多种具有挑战性的技能，如"倒液体、使用工具和操纵可变形物体"。他们希望到2024年底将这一数字提高到1000。Google和特斯拉也一直在对其RoboticTransformerRT-2进行类似的研究。与丰田公司研究人员的方法类似，他们的机器人也是利用自己的经验来推断如何做事。从理论上讲，经过人工智能训练的机器人最终可以在几乎没有任何指令的情况下执行任务，而只需要给人类一个大致的指示（比如"清理溢出物"）。但正如《纽约时报》在报道这家搜索巨头的研究时所指出的那样，Google的机器人至少还有很长的路要走。这种工作通常是"缓慢和劳动密集型的"，提供足够的训练数据比向人工智能模型提供大量从互联网上下载的数据要难得多。...PC版：https://www.cnbeta.com.tw/articles/soft/1385067.htm手机版：https://m.cnbeta.com.tw/view/1385067.htm

在Telegram中查看

相关推荐

谷歌 DeepMind 正在使用 Gemini 来训练机器人使其变得更聪明

谷歌DeepMind正在使用Gemini来训练机器人使其变得更聪明谷歌正在使用GeminiAI训练其机器人，以便它们能够更好地导航和完成任务，DeepMind机器人团队在一篇新的研究论文中解释了如何使用Gemini1.5Pro的长上下文窗口，让用户可以使用自然语言指令更轻松地与其RT-2机器人进行交互。其工作原理是拍摄指定区域的视频，研究人员使用Gemini1.5Pro让机器人“观看”视频以了解环境，然后机器人可以根据情况执行命令。DeepMind表示其Gemini驱动的机器人在超过50个任务中的成功率高达90%。研究人员还发现“初步证据”表明，Gemini使其机器人能够计划如何执行导航以外的指令，例如，当办公桌上有很多可乐罐的用户询问机器人“是否有他们最喜欢的饮料”时，Gemini就会知道“机器人应该导航到冰箱，检查是否有可乐，然后返回给用户报告结果。”DeepMind表示计划进一步调查这些结果。——，

英国官员警告谨慎使用AI驱动的聊天机器人

英国官员警告谨慎使用AI驱动的聊天机器人英国官员警告各公司谨慎将人工智能驱动的聊天机器人整合到业务中，称越来越多的研究显示它们可能会被用于执行有害任务。路透社报道，英国国家网络安全中心（NCSC）星期三（8月30日）发布的博客文章中说，专家们尚未完全掌握与生成类似人类响应的算法相关的潜在安全问题，这些算法被称为大语言模型。这些AI驱动的工具被用作聊天机器人，不仅可以替代互联网搜索，还可以替代客服和销售电话。各国当局正在应对大语言模型的崛起，例如ChatGPT，企业正在将其整合到各种服务中，包括销售和客户服务。NCSC说，这可能带来风险，特别是如果这些模型被插入到公司的业务流程中。学者和研究人员发现了通过向聊天机器人输入恶意指令或欺骗它们绕过内置防护措施的方法。例如，如果黑客成功更改了它的询问，一家银行的AI驱动的聊天机器人可能会被欺骗进行未经授权的交易。NCSC说：“使用大语言模型构建服务系统的组织需要谨慎，就像使用测试版产品或代码库一样。他们可能不会允许该产品代表客户进行交易，而且不会完全信任它。”

微软使用ChatGPT训练机器人为人类日常生活服务

微软使用ChatGPT训练机器人为人类日常生活服务微软研究人员表示：“我们这项研究的目标是看看ChatGPT是否能超越生成文本的范畴，对现实世界状况进行推理，从而帮助机器人完成任务。”微软研究人员想象，未来有一天，普通人可以对内置在家用机器人中的数字家庭助手发出“请给我热一热午餐”等指令，然后看着机器人从头到尾完成任务。在这份报告中，微软研究人员详细介绍他们如何使用某些提示来让ChatGPT控制一架小型无人机。通过在ChatGPT聊天对话框中编写指令，研究人员能够训练无人机在房间里找到“健康饮料”、“有糖和红色标志的东西”(在这种情况下，是一罐可乐)，以及一面供无人机自拍的镜子。ChatGPT非常适合执行这些命令的原因，与OpenAI技术让一些软件工程师对未来感到紧张如出一辙，那就是人工智能聊天机器人可以快速将自然语言转换为代码。OpenAI在去年11月底决定向公众发布ChatGPT，结果火爆全网，也引起了业内人士的担忧。专家们预计，包括写作、教育和软件工程在内的许多行业都将被这项技术所颠覆。虽然微软研究人员承认他们的工作“只代表了一小部分可能性”，但他们警告说，在没有“仔细分析”的情况下，不应该贸然部署ChatGPT的这种应用。...PC版：https://www.cnbeta.com.tw/articles/soft/1346149.htm手机版：https://m.cnbeta.com.tw/view/1346149.htm

DeepMind 的 RoboCat 开始学习执行一系列机器人任务

DeepMind的RoboCat开始学习执行一系列机器人任务DeepMind的研究科学家、RoboCat团队的共同贡献者AlexLee表示：“我们证明，单个大型模型可以在多个真实的机器人实施例上解决多种任务，并且可以快速适应新的任务和实施例。”RoboCat受到Gato的启发，Gato是一种可以分析文本、图像和事件并对其采取行动的DeepMind人工智能模型，它接受了从模拟和现实生活中的机器人收集的图像和动作数据的训练。Lee表示，这些数据来自虚拟环境中其他机器人控制模型、人类控制机器人以及RoboCat本身的先前迭代的组合。为了训练RoboCat，DeepMind的研究人员首先收集了100到1000个使用人类控制的机械臂执行任务或机器人的演示。（例如让机器人手臂拾取齿轮或堆砌方块）然后，他们对RoboCat的任务进行了微调，创建了一个专门的“衍生”模型，该模型平均针对该任务进行了10,000次练习。利用衍生模型生成的数据和演示数据，研究人员不断扩大RoboCat的训练数据集，并训练RoboCat的后续新版本。RoboCat模型的最终版本接受了总共253项任务的训练，并在模拟和现实世界中对这些任务的141种变体进行了基准测试。DeepMind声称，在观察了几个小时内收集的1000个人类控制的演示后，RoboCat学会了操作不同的机械臂。虽然RoboCat已经接受了四种带有双叉手臂的机器人的训练，但该模型能够适应更复杂的带有三指抓手和两倍可控输入的手臂。为了避免RoboCat被誉为机器人控制AI模型的最终王者，在DeepMind的测试中，其跨任务的成功率差异很大——从低端的13%到高端的99%。这是训练数据中的1000个演示，不出所料，示威活动的成功率只有一半。尽管如此，在某些情况下，DeepMind声称RoboCat只需100次演示就能学习新任务。Lee相信RoboCat可能预示着解决机器人技术新任务的障碍将会降低。“为新任务提供有限数量的演示，RoboCat可以针对新任务进行微调，进而自行生成更多数据以进一步改进，”他补充道。展望未来，研究团队的目标是将教RoboCat完成新任务所需的演示次数减少到10次以下。...PC版：https://www.cnbeta.com.tw/articles/soft/1366699.htm手机版：https://m.cnbeta.com.tw/view/1366699.htm

Meta最新AI聊天机器人上网供公众测试使用

Meta最新AI聊天机器人上网供公众测试使用Meta公司人工智能研究实验室创造了一个最先进的聊天机器人，并让公众与该系统交谈，以收集对其能力的反馈。该机器人被称为BlenderBot3，可以在网上访问。BlenderBot3能够进行一般的闲聊，Meta说，但也能回答你可能会问数字助理的那种问题，从谈论健康食品的食谱到寻找城市中适合儿童的设施。该机器人是一个原型，建立在Meta以前的工作上，即所谓的大型语言模型或LLMS，它是从强大但有缺陷的文本生成软件，其中OpenAI的GPT-3是最广为人知的例子。像所有的LLMs一样，BlenderBot最初是在庞大的文本数据集上进行训练的，它在这些数据集上挖掘统计模式以生成语言。这类系统已被证明是非常灵活的，并已被用于一系列用途，从为程序员生成代码到帮助作者写下一本畅销书。然而，这些模型也有严重的缺陷：它们在训练数据中反刍偏见，并经常对用户的问题编造答。后面这个问题是Meta特别想用BlenderBot来测试的。该聊天机器人的一大特点是它能够在互联网上搜索，以便谈论特定的话题。更重要的是，用户可以点击它的回答，看看它的信息是从哪里来的。换句话说，BlenderBot3可以引用其来源。通过向公众发布聊天机器人，Meta希望收集关于大型语言模型面临的各种问题的反馈。与BlenderBot聊天的用户将能够从系统中标记出任何可疑的回应，Meta公司说它已经努力尽量减少机器人使用粗俗语言、污言秽语和文化上不敏感的评论。用户必须选择加入以收集他们的数据，如果是这样，他们的对话和反馈将被储存起来，以后由Meta公司公布，供一般人工智能研究界使用。PC版：https://www.cnbeta.com/articles/soft/1301279.htm手机版：https://m.cnbeta.com/view/1301279.htm

Google打造“终结者”ChatGPT版最强机器人AGI 动嘴操控007

Google打造“终结者”ChatGPT版最强机器人AGI动嘴操控007论文地址：https://robotics-transformer2.github.io/assets/rt2.pdf根据Google内部披露，VLA模型已经接入到机器人身上，能够和现实世界进行互动了！这个机器人被Google命名为RoboticTransformer2(RT-2)，它能够从网络、机器人的数据中学习，还能将这些知识自主转化为有效的指令。简单来说，你只需要对RT-2画个饼，之后就可以等着RT-2把饼喂到你嘴边了。网友们纷纷表示：这真是泰酷辣！GoogleDeepMind负责人表示，长期以来，计算机在分析数据等复杂任务方面表现出色，但在识别和移动物体等简单任务方面却不尽如人意。通过RT-2，我们正在缩小这一差距，帮助机器人解读世界并与之互动，让其对人类更加有用。但俗话说，一口吃不成个大胖子，在RT-2成为RT-2之前，它的前辈RoboticTransformer1（RT-1）为RT-2打下了坚实的基础。01RT-1升级RT-2，VLM到VLART-1是一种多任务模型，基于Transformer构建，能够将图像、自然语言指令等作为输入，并直接输出标记化动作。RT-1的架构：该模型采用文本指令和图像集作为输入，通过预先训练的FiLMEfficientNet模型将它们编码为token，并通过TokenLearner压缩它们。然后将这些输入到Transformer中，Transformer输出操作token因此，与一般机器相比，RT-1具有更好的性能和泛化能力。其中，RT-1所搭载的视觉语言模型（vision-languagemodels，VLMs）扮演了关键角色。VLM在互联网级的数据集上进行训练，因此在识别视觉、语言和跨语言合作这块具有极高水平。在RT-1基础上升级过的RT-2仍以VLM为基础，是Google研究员在办公室、厨房等环境中使用13个RT-1的17个月数据上进行训练的。但RT-2比RT-1多了一个机器动作（action）的模态。为了解决模型对机器控制的挑战，研究人员将RT-2的机器操作设置为模型的输出标记，并将其描述为可以由标准自然语言标记器处理的字符串，如下所示：RT-2训练中使用的动作字符串的表示形式。这种字符串的示例可以是机器人动作标记编号的序列，例如“1128912415101127217”于是，解决加入动作模态（action）将模型与机器进行联结的挑战后，VLM就升级为了VLA。RT-2也在一系列的升级换代后，显示出了惊人的学习能力和理解能力：它能够自己解释全新的命令，通过执行基本推理来响应用户的要求。甚至在与思想链推理结合的情况下，RT-2能够执行多阶段的语义推理。如，决定哪个物体可以用作临时的锤子（石头），或者哪种类型的饮料最适合疲倦的人（一种能量饮料）。RT-2架构和训练：针对机器人和网络数据共同微调预训练的VLM模型。生成的模型接收机器人看到的图像并直接预测机器人要执行的动作02泛化能力提升62%研究人员在在RT-2模型上进行了一系列定性和定量实验，一共进行了6,000多次机器人试验。具体来讲，Google团队探索了RT-2的三项技能：-符号理解-推理-人类识别以上的每项任务都需要理解视觉语义概念，以及执行机器人控制的能力。比如，让RT-2去捡起从桌子上掉下来的袋子，或者将香蕉放到2+1之和的数字的命令。其中要求机器人对数据中从未见过的物体或场景执行操作任务，将知识从基于网络的数据转化为可操作的。数据中不存在的技能示例，需要通过网络预训练进行知识迁移在所有类别中，研究人员观察到，与之前的基线（例如之前的RT-1模型和VisualCortex(VC-1)等模型）相比，泛化性能提高了3倍以上，这些模型是在大型视觉数据集上进行预训练的。紧急技能评估的成功率：RT-2模型优于RT-1和VC-1基线此外，研究人员还进行了一系列定量评估，首先是机器人数据中有实例的原始RT-1任务，然后对机器人先前未见过的物体、背景和环境。以上的任务可以让机器人从VLM预训练中学习泛化。机器人以前未见过的环境示例RT-2保留了数据中“看到”的原始任务的能力，并提高了机器人在以前未见过场景中的性能，从RT-1的32%提高到了62%。研究人员还观察到，与仅视觉任务预训练的基线相比有显着改进，例如VC-1和机器人操作的可重用表示(R3M)，以及使用VLM进行对象识别的算法。RT-2在可见的分布内任务上取得了高性能，并且在分布外未见的任务上优于多个基线。团队还在开源语言表（LanguageTable）机器人任务套件上评估了模型，模拟中的成功率高达90%，比BC-Z（72%）、RT-1（74%）和LAVA（77%）等以前的基线模型有了大幅提高。然后，他们还在现实世界中评估相同的模型，并展示了其泛化到新对象的能力。如下所示，其中除了蓝色立方体之外，没有任何物体出现在训练中数据集。RT-2在真实机器人语言表任务中表现良好受到LLM中使用的CoT方法的启发，研究人员还将机器人控制与思维链推理相结合，以便能够在单个模型中学习长期规划和低级技能。特别是，对RT-2的变体进行了几百个梯度步骤的微调，以提高其联合使用语言和动作的能力。然后，研究人员还对数据进行了扩充，添加了一个额外的“计划”步骤。首先用自然语言描述机器人即将采取的动作的目的，然后是“动作”和动作标记。示例如下：思想链推理能够学习一个独立的模型，该模型既可以规划长期技能序列，又可以预测机器人的动作通过此过程，RT-2可以执行更多复杂的命令，这些命令需要推理完成用户指令所需的中间步骤。得益于VLM主干，RT-2还可以根据图像和文本命令进行规划，从而实现基于视觉的规划。03通用机器人前景RT-2的最新研究表明，视觉语言模型（VLM）可以转化为强大的视觉语言动作（VLA）模型。通过将VLM预训练与机器人数据相结合，可以直接控制机器人。基于大模型PaLM-E和PaLI-X的两个实例化，RT-2提升了机器人的策略。更重要的是，还带来了显着更好的泛化能力、以及应对突发问题的能力，继承了网络规模的视觉语言预-训练。RT-2不仅是对现有VLM模型的简单，而有效的修改，而且还展示了构建通用实体机器人的前景。该机器人可以推理、解决问题和解释信息，以在现实中执行各种任务世界。或许，机器人总动员中，那个聪明的瓦力离我们不远了。...PC版：https://www.cnbeta.com.tw/articles/soft/1373899.htm手机版：https://m.cnbeta.com.tw/view/1373899.htm

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人