Q2：请总结这篇论文的核心要点，尽量以中学生能读懂的非技术语言和风格。我们一条条慢慢展开，尽量站在科普和面向非专业人士的立场。

Q2：请总结这篇论文的核心要点，尽量以中学生能读懂的非技术语言和风格。我们一条条慢慢展开，尽量站在科普和面向非专业人士的立场。首先，请你站在非游戏玩家立场上，简单介绍下Minecraft 这个沙盒游戏？为Voyager这样的自组织学习的智能代理有什么独特的环境属性？ Q3：我的理解是，「迭代提示机制」作为第一个核心要素，是Voyager 自组织探索的关键。当VOYAGER 需要完成一个任务时,它会先通过大语言模型生成一段代码；然后根据执行这段代码产生的环境反馈、执行错误和自我验证；不断改进这段代码，直到完成任务要求；得到成功的代码就会加入技能库。能否针对《我的世界》这款游戏玩家的视角，给出一些具体的任务和例子， Voyager是如何执行这条机制和系统的呢？例子不要3个，可以从简单到复杂，尽量包含与环境的互动和反馈等关键描述。注意保持非技术人士的视角。（见图4） Q4：很有趣，以中等难度的「制作铁制工具」任务为例， VOYAGER会如何自组织设计prompts来实现 GPT-4的编码呢？具体有哪些环境属性的信息，让 AI 模型能够「看见」和得到反馈信息？（图 5） Q5：看起来这些 prompts 的方式相当开发者级别呢？不仅包含了包含环境和实体的属性信息，还让游戏的 API 模拟了游戏操作。那么，如何解决GPT-4 编写代码出现 bug，病自动修复的问题呢？（图 6） Q6：除了自我修复 bug，还有「自动课程」机制会触发，提供另外一些新的任务目标。那么，请用最朴实、简明的语言，介绍一下「自动课程」的基本原理，并介绍 3 个场景案例，来探讨它是如何给 AI 智能代理提供新任务的流程？（图 7） Q7：我举一个更具体玩游戏场景的例子：例如 AI 智能代理，发现自己在沙漠而不是森林中，它会如何调整它当前的任务（制作铁锹的材料在当前环境缺失）？ Q8：Voyager通过将成功的程序存储在一个矢量数据库中，逐步建立起一个技能库。每个程序都可以通过其文件串的嵌入来检索。复杂的技能是由较简单的技能合成的，这使Voyager的能力随着时间的推移而不断增强。 Q9：论文中提到，顶部：添加新技能。每个技能都通过嵌入其描述来索引，可以在将来的类似情况下检索。

在Telegram中查看

相关推荐

AI 新知：当GPT-4 遇上开放世界游戏，智能代理到底有多强？

AI 新知：当GPT-4 遇上开放世界游戏，智能代理到底有多强？尽管AI 智能代理在一个开放世界的成为超级玩家的内容不再是新闻了，然而在上周英伟达发布一系列重磅发布中，这个被称为 Voyager 游戏智能代理，还是表现出非常令人惊叹的自主探索和学习能力。这种智能代理是如何通过 GPT-4 一步步是实现的？为了让更多非专业人士，从原理层面感知这类技术（类似 AutoGPT）原理、应用层的可能，我和 Claude 100k 一起为大家尽可能深入浅出的进行解释和案例分析。（对话全部内容，核心问题只有一个，自主学习、编码、技能树的游戏 AI 是如何工作。（如果你不熟悉《我的世界》这款游戏的玩家视角，我建议你先在官方网址，简单看一下多个GIF 级别的小视频，有个感性认知。图 1，也可以直接移步官方网址 Voyager 是什么？ - 它是第一个玩Minecraft的终身学习的智能代理。Voyager 可以自己写代码、自我迭代、不断完善技能库中，实现可以终身学习的游戏探索过程（见图 2 ） - 它建立在GPT-4之上，并解锁了一个新的范式：「训练」在这个语境下是执行代码；「训练模型」是Voyager迭代组成的技能代码库，而不是浮点矩阵。 - Voyager 正在成为一个经验丰富的探索者，一个超级玩家。在《我的世界》中，它获得了3.3倍的独特物品，旅行了2.3倍的距离，解锁关键技术树里程碑的速度比之前的方法快15.3倍。 - 它是开源的。 Voyager 有 3 个关键组件：（见图3） 1. 结合游戏反馈、执行错误、验证来完善程序的迭代提示机制；（让 GPT-4 写代码） 2. 用于存储和检索复杂行为的技能代码库；（任务的自主完善和迭代） 3. 最大化探索的自动课程。（开放的任务指导体系）以下是我和Claude 100k的全文提问内容，你可以作为「深度对话」和 GPT 们交流。（如果你不是 Poe 的付费用户，也可以用 ChatPDF 之类的代替） Q1：我们讨论一篇重要的AI行业论文，我把正文输入给你，当你阅读理解完成后，请回复 OK。（请注意，复制全文有关对话记录省略了）

底部：技能检索。当面对新的自动课程提出的任务，Voyager 会执行查询以确定前5 名相关技能。复杂的技能可以通过编写更简单的程

底部：技能检索。当面对新的自动课程提出的任务，Voyager 会执行查询以确定前5 名相关技能。复杂的技能可以通过编写更简单的程序来合成，这加速了迭代。请从继续描述一个「构建房屋」例子，来说明这个技能库完善的过程吧。 Q10：解释的很好，自动课程会根据VOYAGER当前的状态和位置，借助 GPT-4 不断适应环境。这「看上去」确实有一些生物意义的智能在里面了呢。那么，我们再来讨论第三个重要的组件：构建技能库。请介绍下Voyager 通过将成功的程序存储在向量 DB 中来逐步构建技能库？比实现由简单技能构建复杂的技能的累进过程？（图 8） Q11：论文中提到，顶部：添加新技能。每个技能都通过嵌入其描述来索引，可以在将来的类似情况下检索。底部：技能检索。当面对新的自动课程提出的任务，Voyager 会执行查询以确定前 5 名相关技能。复杂的技能可以通过编写更简单的程序来合成，这加速了迭代。请从继续描述一个「构建房屋」例子，来说明这个技能库完善的过程吧。 Q12：这里有一个小问题， GPT-4 目前没有提供「视觉」能力，那么，构建房屋这种复杂的技能和任务，是如何被代码实现的呢？ Q13：那么，请总结以上我们讨论，如何理解Voyaer 这种终身学习 AI 代理的主要能力；并尝试用一段话来描述这种技术的开创性价值和潜在应用场景吧。谢谢你的 Copliot～以上全部对话内容一次放出，可在 Poe 网址上观赏。Enjoy～

Q-Transformer ：DeepMind开发的一种新的强化学习方法，它的目标是从大量的数据中学习如何完成多种任务。（工作原

Q-Transformer ：DeepMind开发的一种新的强化学习方法，它的目标是从大量的数据中学习如何完成多种任务。（工作原理见评）该方法可以处理大量的数据，并且可以从人类的示范中学习。这意味着，如果有一个人类专家展示如何完成任务，Q-Transformer可以从这些示范中学习。 Q-Transformer 可以应用于各种需要决策学习的领域，如机器人控制、游戏策略优化、金融决策等。 |

AI 新知：为什么基础代理将会是下一个革命性技术？

AI 新知：为什么基础代理将会是下一个革命性技术？来自英伟达高级研究员 & AI Agents负责人Jim Fan 近期释放的TED 演讲，《The next grand challenge for AI》提出了「基础代理」将在虚拟世界和物理世界中无缝运行。他解释了这项技术将如何从根本上改变我们的生活渗透到从视频游戏、元宇宙到无人机和仿人机器人的方方面面并探讨了这一模型如何掌握跨越这些不同现实的技能。他提出「基础代理」（Foundation Agent）的秘诀：一个单一的模型，可以学习如何在不同的世界中行动。（如果你之前不太熟悉AI agents相关基础知识，可以结合文本内容补充相关知识点，Enjoy）「基础代理」中的智能体， Voyager 是什么？？ - 它是一个在 Minecraft开放世界中无限学习的智能体。Voyager 可以自己写代码、自我迭代、不断完善技能库中，实现无限学习（Longlife learning）的探索过程。 - 这里核心只有一个，就是无限迭代。它不断扩充自己的技能图书馆，无论是在游戏中制作工具，并升级科技树（例如，从Wooden Tool 到Iron Tool），全部是自主迭代、自主验证的。它不仅是自动化，它是通过一套机制自主学习 [1]。 - 它建立在GPT-4之上，并解锁了一个新的范式：「训练」在这个语境下是执行代码；「训练模型」是Voyager迭代组成的技能代码库，而不是浮点矩阵。 - Voyager 作为一个超级玩家，在《我的世界》中，它获得了3.3倍的独特物品，旅行了2.3倍的距离，解锁关键技术树里程碑的速度比之前的方法快15.3倍。它还开源的。 [1] 为什么这个「基础代理」具有非凡意义？ - LLM 适用于大量文本，而基础代理可以跨越很多很多现实。基础代理已经在虚拟世界被验证强大的学习自主性。 - 其次，Jim Fan 认为它具有跨越Reality的拓展性。开放游戏世界Minecraft 只是作为一个模拟现实（simulated realities）和实验基地，他们还在其他仿真环境进行训练和探索得到惊人进展。[2] - 如果它能够掌握 10,000 种不同的模拟现实，那么它就能很好地推广到我们的物理世界，而物理世界只是第 10,001 个现实。 - 换句话说，它正在加速应用于物理世界，特别是机器人技术。参考Jim Fan的PPT 。 [3] Hans 注释： [1] 这套自主学习和迭代的机制，有三个核心组件： a）结合游戏反馈、执行错误、自我验证来完善程序的迭代提示机制；（让 GPT-4 写代码） b）用于存储和检索复杂行为的技能代码库；（任务的完善和迭代，成为了技能） c）最大化探索的自动课程。Hans 在去年相关论文讨论的《当GPT-4 遇上开放世界》中，有更详细的解读。 [2] 英伟达 Isaac Gym 是一个功能强大的端到端 GPU 加速仿真环境，用于强化学习，可用于训练机器人和模型。它是英伟达 Omniverse 平台的一部分，为机器人和计算机视觉算法提供基于物理的高保真模拟。 [3] TED 视频中Jim Fan的PPT ： Invalid media:

《Beyond the Basic Stuff with Python》

《Beyond the Basic Stuff with Python》超越 Python 的基本内容：编写简洁代码的最佳实践内容包含编码风格、常见错误、Cookiecutter 模板工具、函数式编程技术、Big-O 算法分析等等你会学到：编码风格，以及如何使用 Python 的 Black 自动格式化工具来获得更清晰的代码错误的常见来源，以及如何使用静态分析器检测它们如何使用 Cookiecutter 模板工具构建代码项目中的文件函数式编程技术，如 lambda 和高阶函数如何使用 Python 的内置 timeit 和 cProfile 模块分析代码的速度 Big-O 算法分析背后的计算机科学如何让你的评论和文档字符串提供信息，以及多久写一次如何在面向对象编程中创建类，以及为什么使用它们来组织代码在本书的末尾，你将阅读两个经典命令行游戏的详细源代码分解，汉诺塔（逻辑谜题）和四人行（两人游戏） )，以及他们的代码如何遵循本书最佳实践的细目。你将通过自己实施该程序来测试你的技能。当然，没有任何一本书可以使您成为专业的软件开发人员。但是，《Beyond the Basic Stuff with Python》会让你在这条道路上走得更远，并在学习编写易于调试且完美 Pythonic 的可读代码的过程中使你成为更好的程序员。 | #电子书 #Python

GitHub 将 OpenAI 聊天功能添加到编码工具

GitHub 将 OpenAI 聊天功能添加到编码工具微软公司的 GitHub 部门使用 OpenAI 的语言生成工具创建了首批广泛部署的程序，其中一款名为 Copilot 的应用程序可帮助软件开发人员编写计算机代码。现在 GitHub 正在添加聊天和语音功能，让程序员可以询问如何完成某些编码任务。周三宣布的新版本名为 Copilot X，GitHub 首席执行官 Thomas Dohmke 表示，他通过询问如何用 Python 编写贪吃蛇游戏，向他的一个孩子展示了这一版本。聊天窗口可以解释代码段的用途，创建测试代码的方法并提出错误修复建议。开发人员还可以使用他们的声音给出指示或提问。

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人