使用 GPT-3 模型，研究人员研发出能听懂英语指令并执行家务的机器人

使用GPT-3模型，研究人员研发出能听懂英语指令并执行家务的机器人普林斯顿大学、斯坦福大学和谷歌的一组研究人员，利用OpenAI的GPT-3Davinci模型，研发出了一款能听懂英语指令并执行家务的机器人，名为TidyBot。这款机器人可以根据用户的喜好，自动完成如分类洗衣服、捡起地上的垃圾、收拾玩具等任务。GPT-3Davinci模型是一种深度学习模型，属于GPT模型系列的一部分，可以理解和生成自然语言。该模型具有强大的总结能力，可以从大量的文本数据中学习复杂的对象属性和关系。研究人员利用这种能力，让机器人根据用户提供的几个示例对象放置位置，如“黄色衬衫放在抽屉里，深紫色衬衫放在衣柜里，白色袜子放在抽屉里”，然后让模型总结出用户的一般偏好规则，并应用到未来的交互中。投稿：@ZaiHuaBot频道：@TestFlightCN

在Telegram中查看

相关推荐

真能听懂人话谷歌发布又一AI大模型黑科技

真能听懂人话谷歌发布又一AI大模型黑科技RT-2相当于机器人版ChatGPT，被GoogleDeepMind称作是其视觉-语言-动作（VLA）模型的新版本。该模型可以教会机器人更好地识别视觉和语言模态，能够解释人类用自然语言发出的指令，并推断出如何做出相应的行动。它还可以理解英语以外的语言的指示。结合思维链推理，RT-2可以执行多阶段语义推理。即便是一些抽象概念，RT-2也能理解并指挥机械臂做出正确的动作。比如让它找一把临时用的简易锤子，它会抓起石头；让它给疲惫的人选一款饮料，它会选择红牛；让它把可乐罐移到泰勒·斯威夫特的照片上，它也能顺利完成。根据论文，RT-2模型基于网络和机器人数据进行训练，利用了Google自己的Bard等大型语言模型的研究进展，并将其与机器人数据（例如要移动的关节）相结合，然后将这些知识转化为机器人控制的通用指令，同时保留web-scale能力。GoogleDeepMind博客文章写道，RT-2显示出超越其所接触的机器人数据的泛化能力以及语义和视觉理解能力，包括解释新命令并通过执行基本推理（例如关于对象类别或高级描述的推理）来响应用户命令。其将信息转化为行动的能力表明，机器人有望更快地适应新的情况和环境。在对RT-2模型进行了超过6000次的机器人试验后，研究团队发现，RT-2在训练数据或“可见”任务上的表现与之前的模型RT-1一样好。它在新奇的、不可预见的场景中的表现几乎翻番，从RT-1的32%提高到62%。01让机器人用AI大模型学习新技能机器人技术领域正悄然进行一场革命——将大型语言模型的最新进展引入机器人，让机器人变得更聪明，并具备新的理解和解决问题的能力。《纽约时报》技术专栏作家凯文·罗斯（KevinRoose）在Google机器人部门观看了实际演示，工程师给机器人发出指令：“捡起灭绝的动物”，一个单臂机器人呼呼地响了一会儿，然后伸出机械臂，爪子张开落下，准确抓住了它面前桌子上的恐龙塑料制品。▲《纽约时报》拍摄的视频在这场长达1小时的演示中，RT-2还成功执行了“将大众汽车移到德国国旗上”的复杂指令，RT-2找到并抓住一辆大众巴士模型，并将其放在几英尺外的微型德国国旗上。▲两名Google工程师RyanJulian（左）和QuanVuong成功指示RT-2“将大众汽车移到德国国旗上”。（图源：《纽约时报》）多年以来，Google和其他公司的工程师训练机器人执行机械任务（例如翻转汉堡）的方式是使用特定的指令列表对其进行编程。然后机器人会一次又一次地练习该任务，工程师每次都会调整指令，直到得到满意的结果为止。这种方法适用于某些有限的用途。但以这种方式训练机器人，既缓慢又费力。它需要从现实世界的测试中收集大量数据。如果你想教机器人做一些新的事情（例如从翻转汉堡改做翻转煎饼），你通常必须从头开始重新编程。部分源于这些限制，硬件机器人的改进速度慢于基于软件的同类机器人。近年来，Google的研究人员有了一个想法：如果机器人使用AI大型语言模型（来为自己学习新技能，而不是逐一为特定任务进行编程，会怎样？据Google研究科学家卡罗尔·豪斯曼（KarolHausman）介绍，他们大约两年前开始研究这些语言模型，意识到它们蕴藏着丰富的知识，所以开始将它们连接到机器人。高容量视觉-语言模型（VLM）在web-scale数据集上进行训练，使这些系统非常擅长识别视觉或语言模式并跨不同语言进行操作。但要让机器人达到类似的能力水平，他们需要收集每个物体、环境、任务和情况的第一手机器人数据。RT-2的工作建立在RT-1的基础上。这是一个经过多任务演示训练的模型，可学习机器人数据中看到的任务和对象的组合。更具体地说，Google的研究工作使用了在办公室厨房环境中用13个机器人在17个月内收集的RT-1机器人演示数据。Google首次尝试将语言模型和物理机器人结合起来是一个名为PaLM-SayCan的研究项目，该项目于去年公布，它引起了一些关注，但其用处有限。机器人缺乏解读图像的能力，而这是能够理解世界的一项重要技能。他们可以为不同的任务写出分步说明，但无法将这些步骤转化为行动。Google的新机器人模型RT-2就能做到这一点。这个“视觉-语言-动作”模型不仅能够看到和分析周围的世界，还能告诉机器人如何移动。它通过将机器人的动作转换为一系列数字（这一过程称为标注）并将这些标注合并到与语言模型相同的训练数据中来实现这一点。最终，就像ChatGPT或Bard学会推测一首诗或一篇历史文章中接下来应该出现什么词一样，RT-2可以学会猜测机械臂应该如何移动来捡起球，或将空汽水罐扔进回收站垃圾桶。02采用视觉语言模型进行机器人控制RT-2表明视觉-语言模型（VLM）可以转化为强大的视觉-语言-动作（VLA）模型，通过将VLM预训练与机器人数据相结合，直接控制机器人。RT-2以视觉-语言模型（VLM）为基础，将一个或多个图像作为输入，并生成一系列通常代表自然语言文本的标注。此类VLM已接受web-scale数据的训练，能够执行视觉问答、图像字幕或对象识别等任务。GoogleDeepMind团队采用PaLI-X和PaLM-E模型作为RT-2的支柱。为了控制机器人，必须训练它输出动作。研究人员通过将操作表示为模型输出中的标注（类似于语言标注）来解决这一挑战，并将操作描述为可以由标准自然语言标注生成器处理的字符串，如下所示：▲RT-2训练中使用的动作字符串的表示形式。这种字符串的示例可以是机器人动作标记编号的序列，例如“1128912415101127217”。该字符串以一个标志开头，指示是继续还是终止当前情节，而不执行后续命令，然后是更改末端执行器的位置和旋转以及机器人夹具所需延伸的命令。研究人员使用了与RT-1中相同的机器人动作离散版本，并表明将其转换为字符串表示使得可以在机器人数据上训练VLM模型，因为此类模型的输入和输出空间不需要改变了。▲RT-2架构和训练：研究人员针对机器人和网络数据共同微调预先训练的VLM模型。生成的模型接收机器人摄像头图像并直接预测机器人要执行的动作。03泛化性能和紧急技能显著更好研究人员在RT-2模型上进行了一系列定性和定量实验，进行了6000多次机器人试验。在探索RT-2的新兴功能时，他们首先搜索了需要将web-scale数据的知识与机器人的经验相结合的任务，然后定义三类技能：符号理解、推理和人类识别。每项任务都需要理解视觉语义概念以及执行机器人控制以操作这些概念的能力。需要诸如“捡起即将从桌子上掉下来的袋子”之类的命令，其中要求机器人对机器人数据中从未见过的物体或场景执行操作任务将知识从基于网络的数据转化为可操作的。▲机器人数据中不存在的新兴机器人技能示例，需要通过网络预训练进行知识迁移。在所有类别中，研究人员观察到与之前的基线（例如之前的RT-1模型和VisualCortex（VC-1）等模型）相比，RT-2的泛化性能提高到3倍以上，这些模型是在大型视觉数据集上进行预训练的。▲紧急技能评估的成功率：RT-2模型优于之前的RT-1和VC-1基线。研究人员还进行了一系列定量评估，从最初的RT-1任务开始，在机器人数据中提供了示例，然后继续对机器人进行不同程度的以前未见过的物体、背景和环境，要求机器人从VLM预训练中学习泛化能力。▲机器人以前未见过的环境示例，RT-2可以推广到新的情况。RT-2保留了机器人数据中看到的原始任务的性能，并提高了机器人在以前未见过的场景上的性能，从RT-1的32%提高到了62%，展示了大规模预训练的巨大优势。PC版：https://www.cnbeta.com.tw/articles/soft/1373791.htm手机版：https://m.cnbeta.com.tw/view/1373791.htm

Meta称其LLaMA语言模型比OpenAI的GPT-3更有前景

Meta称其LLaMA语言模型比OpenAI的GPT-3更有前景LLaMA有多种尺寸，从70亿个参数到650亿个参数不等。Meta方面称，尽管LLaMA-13B的尺寸较小，而且少了1620亿个参数，但“在大多数基准测试中”表现优于OpenAI的GPT-3。据报道，最大的模型LLaMA-65B与DeepMind的Chinchilla70B和PaLM-540B等模型可相提并论。LLaMA是一个基础模型:它在大量未标记数据上进行训练，这使得研究人员更容易针对特定任务微调模型。由于模型更小，因此更容易针对用例进行再训练。LLaMA不仅仅是使用英语文本构建的。Meta使用20种使用拉丁语或西里尔语脚本的语言训练其模型。然而，大多数训练数据都是英语，因此模型性能更好。Meta的研究人员声称，由于模型的大小，对当前大型语言模型的访问受到限制。Meta认为“这种受限访问限制了研究人员理解这些大型语言模型如何工作以及为何工作的能力，阻碍了提高其稳健性和解决已知问题（例如偏见、侮辱和产生错误信息的可能性）的努力”。除了使模型更小之外，Meta还试图让LLaMA更易于访问，包括在非商业许可下发布它。对各种LLaMA模型的访问权限只会根据具体情况授予学术研究人员，例如隶属于政府、民间组织和学术界的研究人员。与ChatGPT一样，LLaMA与其他语言模型一样存在生成有偏见或不准确的信息。Meta的LLaMA声明承认了这一点，并表示通过共享模型，研究人员可以“更轻松地测试新方法来限制或消除大型语言模型中的这些问题。”Meta在去年5月曾推出一款面向研究人员的名为OPT-175B的大型语言模型，去年年底还发布过另一款模型Galactica，但后者被发现经常分享有偏见或不准确的信息，在48小时内被迅速下架。...PC版：https://www.cnbeta.com.tw/articles/soft/1346899.htm手机版：https://m.cnbeta.com.tw/view/1346899.htm

神秘顶级模型 gpt2-chatbot 惊现竞技场 —— 是 GPT-5 吗？

神秘顶级模型gpt2-chatbot惊现竞技场——是GPT-5吗？聊天机器人竞技场突然上线了一个名叫gpt2-chatbot的神秘模型，这是全网唯一可以访问它的地方，没人知道它是什么或者是谁制造了它，神秘如此居然还拥有GPT-4级(起码)的顶级性能。它在编码、数学和推理方面给出了难以置信的好结果，ASCII与SVG的绘画艺术更是异常疯狂。不少网友猜测这就是GPT-5，也有人认为GPT-4.5会是一个性能合理的猜测，还有人说这个整活风格更像是Grok-2。(在DirectChat访问gpt2-chatbot)关注频道@TestFlightCN频道投稿@TNSubmbot

为机器人安上“最强大脑” 谷歌VLA新模型泛化能力提升3倍能“听懂人话”

为机器人安上“最强大脑”谷歌VLA新模型泛化能力提升3倍能“听懂人话”上文这个“抓起恐龙”的动作对于人类而言轻而易举，对于机器人而言却堪称一个重要飞跃——之前机器人经常无法操纵自己从未见过的东西，也难以实现从“灭绝的动物”到“塑料恐龙”的逻辑飞跃。作为一款新型视觉-语言-动作（vision-language-action，VLA）模型，RT-2可以从网络、机器人数据中学习，并将这些知识转化为机器人控制的通用指令。相较于其他机器人研究，RT-2的核心优势在于，其不仅能直接接收“人话”指令，听懂“人话”、理解“人话”，还能做出相应推理，并转为机器人能理解的分阶段指令，从而做出动作完成任务。RT-2完成的每一项任务，都要求其理解视觉语义概念、并通过控制机器人实现操作这些概念。例如接到“捡起桌子上快掉下去的袋子”、“将香蕉移动到2加1的总和处”这种指令时，机器人需要对相应物体/场景执行任务，而这些物体与场景它从未在机器人数据中见过，需要从网络数据中转化得到相应知识。总体而言，RT-2具备三大能力：符号理解（Symbolunderstanding）、推理（Reasoning）和人类识别（Humanrecognition）。（1）符号理解是指RT-2可以从视觉语言预训练中转移了语义知识，而这些语义知识在机器人数据中并不存在。这类指令示例包括“将苹果移到3号位置”或“将可乐罐推到心形上”。图符号理解指令示例（2）推理则是将VLM的各种推理能力用于任务控制，包括视觉推理（“将苹果移到相同颜色的杯子里”）、数学推理（“将X移到2加1之和的附近”）、多语言理解（“muevelamanzanaalvasoverde”，西班牙语）。图推理指令示例（3）人类识别是以人类为中心的理解和识别能力，RT-2可以完成“将可乐罐移到戴眼镜的人身边”这类任务。图人类识别指令示例此外，研究人员还将机器人控制与思维链推理相结合。首先用自然语言描述机器人即将采取的动作的目的，然后是“动作”和动作标记。例如在下图中，RT-2接收到的要求是“我想钉个钉子，场景里什么东西可能能用上？”，RT-2转化得出了“石头。动作：1129138122132132106127”的指令，并拿起了石头。RT-2还能更好地适用于不同的、机器此前没见过的场景。比起在大型数据集上预训练的RT-1、VisualCortex（VC-1）等模型，RT-2泛化能力大幅提高，较前者提高了3倍有余。加利福尼亚大学伯克利分校的机器人学教授KenGoldberg表示，机器人的灵巧性仍达不到人类水平，在一些基本任务上也会失败，但Google利用人工智能语言模型，赋予机器人推理和随机应变的新技能，是一个很有希望的突破。...PC版：https://www.cnbeta.com.tw/articles/soft/1374045.htm手机版：https://m.cnbeta.com.tw/view/1374045.htm

OpenAI发布最新旗舰生成式AI模型GPT-4o 改进文本、视觉和音频功能

OpenAI发布最新旗舰生成式AI模型GPT-4o改进文本、视觉和音频功能穆拉提在OpenAI办公室举行的主题演讲上说：GPT-4o的理由横跨语音、文本和视觉。OpenAI将发布桌面版ChatGPT和全新的用户界面。穆拉提说："我们知道这些模型越来越复杂，但我们希望交互体验变得更自然、更简单，让你完全不用关注用户界面，而只关注与GPT的协作。这一点非常重要，因为我们正在展望人类与机器之间互动的未来。"GPT-4是OpenAI之前的领先模型，它是图像和文本的结合体，可以分析图像和文本，完成从图像中提取文本甚至描述图像内容等任务。但GPT-4o增加了语音功能。这具体能带来什么？很多方面。GPT-4o极大地改善了ChatGPT的体验--ChatGPT是OpenAI的病毒式人工智能聊天机器人。ChatGPT长期以来一直提供语音模式，使用文本到语音模式转录ChatGPT中的文本。但GPT-4o对此进行了改进，让用户可以更像使用助手一样与ChatGPT互动。例如，用户可以向由GPT-4o支持的ChatGPT提问，并在ChatGPT回答时打断它。OpenAI表示，该模型能提供"实时"响应，甚至能捕捉用户声音中的情感，并生成"一系列不同情感风格"的语音。GPT-4o还改进了ChatGPT的视觉功能。有了照片或桌面屏幕，ChatGPT现在可以快速回答相关问题，从"这个软件代码是怎么回事"到"这个人穿的是什么牌子的衬衫？其他方面，OpenAI将发布桌面版ChatGPT和全新的用户界面。穆拉提说："我们知道这些模型越来越复杂，但我们希望交互体验变得更自然、更简单，让你完全不用关注用户界面，而只关注与[GPT]的协作。"...PC版：https://www.cnbeta.com.tw/articles/soft/1430761.htm手机版：https://m.cnbeta.com.tw/view/1430761.htm

GPT-4 利用未知的「零日」漏洞入侵网站，成功率达53%

GPT-4利用未知的「零日」漏洞入侵网站，成功率达53%研究人员利用名为「HPTSA」的方法，让大语言模型协同工作，成功入侵了超过一半的测试网站。这种方法使得多个大语言模型们可以如同老板与下属一般规划工作、分配任务。大大减轻单个模型的工作负担。在测试中，模型们利用的是之前未知的「零日」漏洞。研究人员同时指出：聊天机器人模式下的GPT-4"不足以理解LLM的能力"，本身无法进行任何攻击。关注频道@ZaiHuaPd频道爆料@ZaiHuabot

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人