用GPT-4训练机器人英伟达最新Agent开源：任务越复杂越拿手

用GPT-4训练机器人英伟达最新Agent开源：任务越复杂越拿手尤其是转笔这个技能，要知道靠人类逐帧制作动画，也是非常困难的。最终，Eureka在超过80%的任务中都超越人类专家，让机器人平均性能提升到50%以上。这一研究吸引了数十万网友关注，有人表示：直接快进到它弹钢琴那天，直接为大众所用。英伟达科学家，也是此次共同作者之一JimFan评价到，它是超级人类奖励工程师。它可以辅助机器人工程师设计复杂任务。目前该项目完全开源。GPT-4生成奖励策略在机器人学习中，大模型擅长生成高级语义规划和中级操作，比如拾取和放置（VIMA、RT-1等），但在复杂任务控制方面有所欠缺。而Eureka的关键所在，就是通过上下文来实现了人类水平的奖励算法设计。简单来说，就是用GPT-4的零样本生成、代码编写以及上下文改进功能，对奖励执行策略进行优化，由此通过强化学习来进行复杂的技能。研究人员提出了一种混合梯度架构，外循环运行GPT-4来细化奖励函数（无梯度），而内循环运行强化学习来训练机器人控制器（基于梯度）。主要有三个关键组成部分：模拟器环境代码作为上下文启动初始“种子”奖励函数。GPU上的大规模并行强化学习，可以快速评估大量候选奖励。奖励反射rewardreflection，得益于GPT-4评估和修改能力，一步步迭代。首先，无需任何特定提示工程和奖励模版。使用原始IsaacGym（一种GPU加速的物理模拟器）环境代码作为上下文，生成初始奖励函数。这种无梯度的情境学习方式，可以根据各种形式的人类输入，生成性能更强、符合开发人员愿景的奖励函数。其次，Eureka在每个进化步骤中都会生成很多候选函数，然后利用强化学习训练来进行快速评估。以往这种过程需要几天甚至几周来完成，但由IsaacGym可将模拟时间提高1000倍，强化学习内循环能在几分钟完成。最后，依赖于奖励反射，Eureka还支持一种新形式的上下文RLHF。它能够将人类操作员的反馈融入自然语言中，以引导和调整奖励功能。最终，在29种不同的开源RL环境中，83%基准测试中Eureka都优于人类，并实现了52%改进。这些环境包括10种不同的机器人形态，比如四足机器人、四旋翼机器人、双足机器人、机械手等。让研究人员惊讶的是，尤其在处理复杂、高维电机控制的任务上，Eureka表现更好，且与人类奖励的相关性越低。甚至在少数情况下，AI的策略与人类的策略呈现负相关。这就有点像当年AlphaGo的下棋策略，人类看不懂学不会，但十分有效。英伟达出品这项研究由英伟达、宾夕法尼亚大学、加州理工学院、德州大学奥斯汀分校的研究人员来完成。可以看到的是，近半数研究人员都是华人。一作是YechengJasonMa，目前是宾大GRASP实验室的四年级博士生，研究方向是强化学习和机器人学习。英伟达科学家JimFan此次也是通讯作者之一。咳咳，不过至于网友提到的弹钢琴，JimFan自己曾分享过：只需几个简单按钮，AI就能实时即兴生成演奏音乐。不知道，未来会不会这样的呢？（不过，这研究已经是2018年的了）...PC版：https://www.cnbeta.com.tw/articles/soft/1391745.htm手机版：https://m.cnbeta.com.tw/view/1391745.htm

在Telegram中查看

相关推荐

用GPT-4训练机器人，英伟达最新Agent开源：任务越复杂越拿手训练，AI比人类更拿手！英伟达最新AIAgentEure

OpenAI正在升级其文本生成模型GPT-3.5-turbo和GPT-4并降低价格

OpenAI正在升级其文本生成模型GPT-3.5-turbo和GPT-4并降低价格例如，函数调用可以帮助创建聊天机器人，通过调用外部工具回答问题，将自然语言转换为数据库查询，并从文本中提取结构化数据。“这些模型已经过微调，可以检测何时需要调用函数……并使用符合函数签名的JSON进行响应，”OpenAI在介绍中写道。“函数调用允许开发人员更可靠地从模型中获取结构化数据。”除了函数调用之外，OpenAI还引入了一种具有极大扩展上下文窗口的GPT-3.5-turbo。上下文窗口以标记或原始文本位衡量，指的是模型在生成任何其他文本之前考虑的文本。具有小上下文窗口的模型往往会“忘记”即使是最近的对话内容，导致他们偏离主题。新的GPT-3.5-turbo提供四倍于普通GPT-3.5-turbo的上下文长度（16000个令牌），价格是原来的两倍——每1000个输入令牌（即输入模型的令牌）0.003美元，每1000个输出令牌0.004美元（模型生成的标记）。OpenAI表示，它一次可以摄取大约20页的文本——明显低于AI初创公司Anthropic的旗舰模型可以处理的数百页文本。（OpenAI正在测试具有32000个令牌上下文窗口的GPT-4版本，但发布范围有限。）从好的方面来说，OpenAI表示它正在将GPT-3.5-turbo（原始版本，而不是具有扩展上下文窗口的版本）的价格降低25%。开发人员现在可以以每1000个输入令牌0.0015美元和每1000个输出令牌0.002美元的价格使用该模型，这相当于每美元大约700页。text-embedding-ada-002的定价也有所降低，这是OpenAI更流行的文本嵌入模型之一。文本嵌入衡量文本字符串的相关性，通常用于搜索（结果按与查询字符串的相关性排序）和推荐（推荐具有相关文本字符串的项目）。Text-embedding-ada-002现在每1000个令牌的价格为0.0001美元，比之前的价格降低了75%。OpenAI表示，减少是通过提高其系统效率实现的——毫无疑问，这是这家初创公司关注的一个关键领域，因为它在研发和基础设施上花费了数亿美元。OpenAI已经表示，在3月初发布GPT-4之后，对现有模型的增量更新是当下主要工作，而不是研发大规模的从头开始的新模型。在最近的一次会议上，首席执行官山姆·奥特曼重申OpenAI尚未开始培训GPT-4的继任者，这表明该公司在开始该模型之前“还有很多工作要做”。了解更多：https://openai.com/blog/function-calling-and-other-api-updates...PC版：https://www.cnbeta.com.tw/articles/soft/1365217.htm手机版：https://m.cnbeta.com.tw/view/1365217.htm

【慢雾创始人：GPT-4搞不定复杂的智能合约代码，但可作为审计辅助】

【慢雾创始人：GPT-4搞不定复杂的智能合约代码，但可作为审计辅助】2023年03月15日04点50分3月15日消息，慢雾创始人余弦发推称，“土狗的智能合约代码一般都简单，我相信GPT-4大概率都可以给出正确的安全建议，但复杂的智能合约代码，尤其是有人类诡辩思维在里面的，还有那种需要其他场景（或者更大范围上下文）的漏洞，GPT-4搞不定，但可以作为审计辅助（如果用好的话）。另外，AI可能会骗人。看来安全审计公司未来不仅可以用好GPT，还可以审计GPT是不是在‘作恶’。”

OpenAI强化GPT-4并使其更加便宜

OpenAI强化GPT-4并使其更加便宜该公司在周一举行的首次开发者大会上宣布，目前通过API预览版提供的GPT-4Turbo已对2023年4月之前的信息进行了培训。3月份发布的GPT-4早期版本只能学习到2021年9月之前的数据。OpenAI计划在未来几周内发布可量产的Turbo模型，但没有给出确切日期。GPT-4Turbo还能"看到"更多数据，其上下文窗口为128K，OpenAI称这"相当于在单个提示符中显示300多页文本"。一般来说，更大的上下文窗口可以让GPT等大型语言模型理解更多问题，并提供更深思熟虑的回答。在此之前，OpenAI发布了两个版本的GPT-4，一个版本的上下文窗口只有8K，另一个版本为32K。OpenAI表示，GPT-4Turbo对开发者来说运行成本更低。与GPT-4的0.03美元相比，每1000个标记（LLM阅读文本或代码的基本单位）的输入成本仅为0.01美元。每输出1000个单位的成本为0.03美元。总体而言，OpenAI表示新版GPT-4比旧版便宜三倍。最新版本的GPT-4仍将接受图像提示、文本到语音请求，并集成了10月份首次发布的DALL-E3功能。该公司表示，GPT-4Turbo的改进意味着用户可以在一次提示中要求模型执行更复杂的任务。用户甚至可以让GPT-4Turbo特别使用自己选择的编程语言来获取结果，比如XML或JSON编码。使用GPT-3.5Turbo模型的公司还将看到上下文窗口、功能和价格方面的改进。它的默认上下文窗口为16K，功能更新与GPT-4Turbo相同。GPT-3.5Turbo的输入费用为0.01美元，输出费用为0.002美元。OpenAI于3月发布了GPT-3.5Turbo，并称其为非聊天用途的最佳模型。8月，该公司又发布了一个可以微调的版本。除了改进旗舰模型，OpenAI还宣布效仿微软和Google，通过一项名为CopyrightShield的计划为企业用户提供版权赔偿。该公司在一份声明中说："如果你面临有关版权侵权的法律索赔，我们现在将出面为我们的客户辩护，并支付由此产生的费用。"版权保护计划将涵盖ChatGPTEnterprise和OpenAI开发者平台的一般可用功能。Google表示，如果使用其嵌入式生成式人工智能功能的客户被起诉侵犯版权，公司将承担法律责任。微软也为其Copilot人工智能产品的企业用户提供了同样的保护。...PC版：https://www.cnbeta.com.tw/articles/soft/1394925.htm手机版：https://m.cnbeta.com.tw/view/1394925.htm

英伟达发布新的机器人制造平台添加生成式AI功能

英伟达发布新的机器人制造平台添加生成式AI功能生成式AI的加入将使人形机器人根据语言、视频、“人类示范”和过去的经验相结合的输入采取行动。这个被称为“GR00T项目”的生成式AI组件将添加到英伟达现有的机器人硬件和软件平台上。英伟达Omniverse和仿真技术副总裁RevLebaredian在新闻发布会上说：“这些更智能、更快、更好的机器人将被部署在全球的重工业中。我们正在与全球整个机器人和仿真生态系统合作，以加速开发和采用。”新的生成式AI软件背后的强大计算机被称为“杰森·索尔”（JetsonThor），基于英伟达的一款人工智能芯片和其他硬件。该公司表示，这台计算机将为机器人提供足够的计算能力，以执行复杂的任务，并与人和机器互动。英伟达表示，这套软件工具被称为“艾萨克”（Isaac）平台，新的GR00T生成式AI功能被设计用于“任何环境下的任何机器人化身”。这些工具包括训练软件随着时间的推移做出更好决策的能力，这一过程被称为强化学习。英伟达还表示，将发布预先训练过的机器人模型和其他软件，以改进机械臂功能和多摄像头感应能力。...PC版：https://www.cnbeta.com.tw/articles/soft/1424175.htm手机版：https://m.cnbeta.com.tw/view/1424175.htm

如果我们在 Minecraft 中解放 GPT-4 会怎样？

如果我们在Minecraft中解放GPT-4会怎样？我很高兴地宣布Voyager，这是第一个完全在上下文中玩Minecraft的终身学习代理。Voyager通过编写、提炼、提交和从技能库中检索*代码*不断改进自己。GPT-4解锁了一种新范式：“训练”是代码执行而不是梯度下降。“训练有素的模型”是Voyager迭代组合的技能代码库，而不是浮点数矩阵。我们正在将无梯度架构推向极限。https://vxtwitter.com/DrJimFan/status/1662115266933972993?s=20

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人