用GPT-4训练机器人 英伟达最新Agent开源:任务越复杂越拿手

用GPT-4训练机器人英伟达最新Agent开源:任务越复杂越拿手尤其是转笔这个技能,要知道靠人类逐帧制作动画,也是非常困难的。最终,Eureka在超过80%的任务中都超越人类专家,让机器人平均性能提升到50%以上。这一研究吸引了数十万网友关注,有人表示:直接快进到它弹钢琴那天,直接为大众所用。英伟达科学家,也是此次共同作者之一JimFan评价到,它是超级人类奖励工程师。它可以辅助机器人工程师设计复杂任务。目前该项目完全开源。GPT-4生成奖励策略在机器人学习中,大模型擅长生成高级语义规划和中级操作,比如拾取和放置(VIMA、RT-1等),但在复杂任务控制方面有所欠缺。而Eureka的关键所在,就是通过上下文来实现了人类水平的奖励算法设计。简单来说,就是用GPT-4的零样本生成、代码编写以及上下文改进功能,对奖励执行策略进行优化,由此通过强化学习来进行复杂的技能。研究人员提出了一种混合梯度架构,外循环运行GPT-4来细化奖励函数(无梯度),而内循环运行强化学习来训练机器人控制器(基于梯度)。主要有三个关键组成部分:模拟器环境代码作为上下文启动初始“种子”奖励函数。GPU上的大规模并行强化学习,可以快速评估大量候选奖励。奖励反射rewardreflection,得益于GPT-4评估和修改能力,一步步迭代。首先,无需任何特定提示工程和奖励模版。使用原始IsaacGym(一种GPU加速的物理模拟器)环境代码作为上下文,生成初始奖励函数。这种无梯度的情境学习方式,可以根据各种形式的人类输入,生成性能更强、符合开发人员愿景的奖励函数。其次,Eureka在每个进化步骤中都会生成很多候选函数,然后利用强化学习训练来进行快速评估。以往这种过程需要几天甚至几周来完成,但由IsaacGym可将模拟时间提高1000倍,强化学习内循环能在几分钟完成。最后,依赖于奖励反射,Eureka还支持一种新形式的上下文RLHF。它能够将人类操作员的反馈融入自然语言中,以引导和调整奖励功能。最终,在29种不同的开源RL环境中,83%基准测试中Eureka都优于人类,并实现了52%改进。这些环境包括10种不同的机器人形态,比如四足机器人、四旋翼机器人、双足机器人、机械手等。让研究人员惊讶的是,尤其在处理复杂、高维电机控制的任务上,Eureka表现更好,且与人类奖励的相关性越低。甚至在少数情况下,AI的策略与人类的策略呈现负相关。这就有点像当年AlphaGo的下棋策略,人类看不懂学不会,但十分有效。英伟达出品这项研究由英伟达、宾夕法尼亚大学、加州理工学院、德州大学奥斯汀分校的研究人员来完成。可以看到的是,近半数研究人员都是华人。一作是YechengJasonMa,目前是宾大GRASP实验室的四年级博士生,研究方向是强化学习和机器人学习。英伟达科学家JimFan此次也是通讯作者之一。咳咳,不过至于网友提到的弹钢琴,JimFan自己曾分享过:只需几个简单按钮,AI就能实时即兴生成演奏音乐。不知道,未来会不会这样的呢?(不过,这研究已经是2018年的了)...PC版:https://www.cnbeta.com.tw/articles/soft/1391745.htm手机版:https://m.cnbeta.com.tw/view/1391745.htm

相关推荐

封面图片

用GPT-4训练机器人,英伟达最新Agent开源:任务越复杂越拿手训练,AI比人类更拿手!英伟达最新AIAgentEure

封面图片

OpenAI正在升级其文本生成模型GPT-3.5-turbo和GPT-4并降低价格

OpenAI正在升级其文本生成模型GPT-3.5-turbo和GPT-4并降低价格例如,函数调用可以帮助创建聊天机器人,通过调用外部工具回答问题,将自然语言转换为数据库查询,并从文本中提取结构化数据。“这些模型已经过微调,可以检测何时需要调用函数……并使用符合函数签名的JSON进行响应,”OpenAI在介绍中写道。“函数调用允许开发人员更可靠地从模型中获取结构化数据。”除了函数调用之外,OpenAI还引入了一种具有极大扩展上下文窗口的GPT-3.5-turbo。上下文窗口以标记或原始文本位衡量,指的是模型在生成任何其他文本之前考虑的文本。具有小上下文窗口的模型往往会“忘记”即使是最近的对话内容,导致他们偏离主题。新的GPT-3.5-turbo提供四倍于普通GPT-3.5-turbo的上下文长度(16000个令牌),价格是原来的两倍——每1000个输入令牌(即输入模型的令牌)0.003美元,每1000个输出令牌0.004美元(模型生成的标记)。OpenAI表示,它一次可以摄取大约20页的文本——明显低于AI初创公司Anthropic的旗舰模型可以处理的数百页文本。(OpenAI正在测试具有32000个令牌上下文窗口的GPT-4版本,但发布范围有限。)从好的方面来说,OpenAI表示它正在将GPT-3.5-turbo(原始版本,而不是具有扩展上下文窗口的版本)的价格降低25%。开发人员现在可以以每1000个输入令牌0.0015美元和每1000个输出令牌0.002美元的价格使用该模型,这相当于每美元大约700页。text-embedding-ada-002的定价也有所降低,这是OpenAI更流行的文本嵌入模型之一。文本嵌入衡量文本字符串的相关性,通常用于搜索(结果按与查询字符串的相关性排序)和推荐(推荐具有相关文本字符串的项目)。Text-embedding-ada-002现在每1000个令牌的价格为0.0001美元,比之前的价格降低了75%。OpenAI表示,减少是通过提高其系统效率实现的——毫无疑问,这是这家初创公司关注的一个关键领域,因为它在研发和基础设施上花费了数亿美元。OpenAI已经表示,在3月初发布GPT-4之后,对现有模型的增量更新是当下主要工作,而不是研发大规模的从头开始的新模型。在最近的一次会议上,首席执行官山姆·奥特曼重申OpenAI尚未开始培训GPT-4的继任者,这表明该公司在开始该模型之前“还有很多工作要做”。了解更多:https://openai.com/blog/function-calling-and-other-api-updates...PC版:https://www.cnbeta.com.tw/articles/soft/1365217.htm手机版:https://m.cnbeta.com.tw/view/1365217.htm

封面图片

【慢雾创始人:GPT-4搞不定复杂的智能合约代码,但可作为审计辅助】

【慢雾创始人:GPT-4搞不定复杂的智能合约代码,但可作为审计辅助】2023年03月15日04点50分3月15日消息,慢雾创始人余弦发推称,“土狗的智能合约代码一般都简单,我相信GPT-4大概率都可以给出正确的安全建议,但复杂的智能合约代码,尤其是有人类诡辩思维在里面的,还有那种需要其他场景(或者更大范围上下文)的漏洞,GPT-4搞不定,但可以作为审计辅助(如果用好的话)。另外,AI可能会骗人。看来安全审计公司未来不仅可以用好GPT,还可以审计GPT是不是在‘作恶’。”

封面图片

OpenAI强化GPT-4并使其更加便宜

OpenAI强化GPT-4并使其更加便宜该公司在周一举行的首次开发者大会上宣布,目前通过API预览版提供的GPT-4Turbo已对2023年4月之前的信息进行了培训。3月份发布的GPT-4早期版本只能学习到2021年9月之前的数据。OpenAI计划在未来几周内发布可量产的Turbo模型,但没有给出确切日期。GPT-4Turbo还能"看到"更多数据,其上下文窗口为128K,OpenAI称这"相当于在单个提示符中显示300多页文本"。一般来说,更大的上下文窗口可以让GPT等大型语言模型理解更多问题,并提供更深思熟虑的回答。在此之前,OpenAI发布了两个版本的GPT-4,一个版本的上下文窗口只有8K,另一个版本为32K。OpenAI表示,GPT-4Turbo对开发者来说运行成本更低。与GPT-4的0.03美元相比,每1000个标记(LLM阅读文本或代码的基本单位)的输入成本仅为0.01美元。每输出1000个单位的成本为0.03美元。总体而言,OpenAI表示新版GPT-4比旧版便宜三倍。最新版本的GPT-4仍将接受图像提示、文本到语音请求,并集成了10月份首次发布的DALL-E3功能。该公司表示,GPT-4Turbo的改进意味着用户可以在一次提示中要求模型执行更复杂的任务。用户甚至可以让GPT-4Turbo特别使用自己选择的编程语言来获取结果,比如XML或JSON编码。使用GPT-3.5Turbo模型的公司还将看到上下文窗口、功能和价格方面的改进。它的默认上下文窗口为16K,功能更新与GPT-4Turbo相同。GPT-3.5Turbo的输入费用为0.01美元,输出费用为0.002美元。OpenAI于3月发布了GPT-3.5Turbo,并称其为非聊天用途的最佳模型。8月,该公司又发布了一个可以微调的版本。除了改进旗舰模型,OpenAI还宣布效仿微软和Google,通过一项名为CopyrightShield的计划为企业用户提供版权赔偿。该公司在一份声明中说:"如果你面临有关版权侵权的法律索赔,我们现在将出面为我们的客户辩护,并支付由此产生的费用。"版权保护计划将涵盖ChatGPTEnterprise和OpenAI开发者平台的一般可用功能。Google表示,如果使用其嵌入式生成式人工智能功能的客户被起诉侵犯版权,公司将承担法律责任。微软也为其Copilot人工智能产品的企业用户提供了同样的保护。...PC版:https://www.cnbeta.com.tw/articles/soft/1394925.htm手机版:https://m.cnbeta.com.tw/view/1394925.htm

封面图片

英伟达发布新的机器人制造平台 添加生成式AI功能

英伟达发布新的机器人制造平台添加生成式AI功能生成式AI的加入将使人形机器人根据语言、视频、“人类示范”和过去的经验相结合的输入采取行动。这个被称为“GR00T项目”的生成式AI组件将添加到英伟达现有的机器人硬件和软件平台上。英伟达Omniverse和仿真技术副总裁RevLebaredian在新闻发布会上说:“这些更智能、更快、更好的机器人将被部署在全球的重工业中。我们正在与全球整个机器人和仿真生态系统合作,以加速开发和采用。”新的生成式AI软件背后的强大计算机被称为“杰森·索尔”(JetsonThor),基于英伟达的一款人工智能芯片和其他硬件。该公司表示,这台计算机将为机器人提供足够的计算能力,以执行复杂的任务,并与人和机器互动。英伟达表示,这套软件工具被称为“艾萨克”(Isaac)平台,新的GR00T生成式AI功能被设计用于“任何环境下的任何机器人化身”。这些工具包括训练软件随着时间的推移做出更好决策的能力,这一过程被称为强化学习。英伟达还表示,将发布预先训练过的机器人模型和其他软件,以改进机械臂功能和多摄像头感应能力。...PC版:https://www.cnbeta.com.tw/articles/soft/1424175.htm手机版:https://m.cnbeta.com.tw/view/1424175.htm

封面图片

如果我们在 Minecraft 中解放 GPT-4 会怎样?

如果我们在Minecraft中解放GPT-4会怎样?我很高兴地宣布Voyager,这是第一个完全在上下文中玩Minecraft的终身学习代理。Voyager通过编写、提炼、提交和从技能库中检索*代码*不断改进自己。GPT-4解锁了一种新范式:“训练”是代码执行而不是梯度下降。“训练有素的模型”是Voyager迭代组合的技能代码库,而不是浮点数矩阵。我们正在将无梯度架构推向极限。https://vxtwitter.com/DrJimFan/status/1662115266933972993?s=20

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人