AI 新知:当GPT-4 遇上开放世界游戏, 智能代理到底有多强?

AI 新知:当GPT-4 遇上开放世界游戏, 智能代理到底有多强? 尽管AI 智能代理在一个开放世界的成为超级玩家的内容不再是新闻了,然而在上周英伟达发布一系列重磅发布中, 这个被称为 Voyager 游戏智能代理,还是表现出非常令人惊叹的自主探索和学习能力。 这种智能代理是如何通过 GPT-4 一步步是实现的? 为了让更多非专业人士,从原理层面感知这类技术(类似 AutoGPT)原理、应用层的可能,我和 Claude 100k 一起为大家尽可能深入浅出的进行解释和案例分析。 ( 对话全部内容, 核心问题只有一个,自主学习、编码、技能树的游戏 AI 是如何工作。 (如果你不熟悉《我的世界》这款游戏的玩家视角,我建议你先在官方网址 ,简单看一下多个GIF 级别的小视频, 有个感性认知。图 1,也可以直接移步官方网址 Voyager 是什么? - 它是第一个玩Minecraft的终身学习的智能代理。Voyager 可以自己写代码、自我迭代、不断完善技能库中,实现可以终身学习的游戏探索过程(见图 2 ) - 它建立在GPT-4之上,并解锁了一个新的范式:「训练」在这个语境下是执行代码;「训练模型」是Voyager迭代组成的技能代码库,而不是浮点矩阵。 - Voyager 正在成为一个经验丰富的探索者,一个超级玩家。在《我的世界》中,它获得了3.3倍的独特物品,旅行了2.3倍的距离,解锁关键技术树里程碑的速度比之前的方法快15.3倍。 - 它是开源的。 Voyager 有 3 个关键组件:(见图3) 1. 结合游戏反馈、执行错误、验证来完善程序的迭代提示机制;(让 GPT-4 写代码 ) 2. 用于存储和检索复杂行为的技能代码库;(任务的自主完善和迭代) 3. 最大化探索的自动课程。 (开放的任务指导体系) 以下是我和Claude 100k的全文提问内容, 你可以作为「深度对话」和 GPT 们交流。 (如果你不是 Poe 的付费用户,也可以用 ChatPDF 之类的代替) Q1:我们讨论一篇重要的AI行业论文,我把正文输入给你, 当你阅读理解完成后, 请回复 OK。(请注意,复制全文有关对话记录省略了 )

相关推荐

封面图片

如果我们在 Minecraft 中解放 GPT-4 会怎样?

如果我们在 Minecraft 中解放 GPT-4 会怎样? 我很高兴地宣布 Voyager,这是第一个完全在上下文中玩 Minecraft 的终身学习代理。 Voyager 通过编写、提炼、提交和从技能库中检索*代码*不断改进自己。 GPT-4 解锁了一种新范式:“训练”是代码执行而不是梯度下降。 “训练有素的模型”是 Voyager 迭代组合的技能代码库,而不是浮点数矩阵。我们正在将无梯度架构推向极限。

封面图片

AI 新知:为什么基础代理将会是下一个革命性技术?

AI 新知:为什么基础代理将会是下一个革命性技术? 来自英伟达高级研究员 & AI Agents负责人Jim Fan 近期释放的TED 演讲,《The next grand challenge for AI》提出了「基础代理」将在虚拟世界和物理世界中无缝运行。他解释了这项技术将如何从根本上改变我们的生活渗透到从视频游戏、元宇宙到无人机和仿人机器人的方方面面并探讨了这一模型如何掌握跨越这些不同现实的技能。 他提出「基础代理」(Foundation Agent)的秘诀:一个单一的模型,可以学习如何在不同的世界中行动。 (如果你之前不太熟悉AI agents相关基础知识, 可以结合文本内容补充相关知识点,Enjoy) 「基础代理」中的智能体, Voyager 是什么?? - 它是一个在 Minecraft开放世界中无限学习的智能体。Voyager 可以自己写代码、自我迭代、不断完善技能库中,实现无限学习(Longlife learning)的探索过程。 - 这里核心只有一个,就是无限迭代。 它不断扩充自己的技能图书馆, 无论是在游戏中制作工具,并升级科技树(例如,从Wooden Tool 到Iron Tool), 全部是自主迭代、自主验证的。 它不仅是自动化,它是通过一套机制自主学习 [1]。 - 它建立在GPT-4之上,并解锁了一个新的范式:「训练」在这个语境下是执行代码;「训练模型」是Voyager迭代组成的技能代码库,而不是浮点矩阵。 - Voyager 作为一个超级玩家,在《我的世界》中,它获得了3.3倍的独特物品,旅行了2.3倍的距离,解锁关键技术树里程碑的速度比之前的方法快15.3倍。它还开源的。 [1] 为什么这个「基础代理」具有非凡意义? - LLM 适用于大量文本,而基础代理可以跨越很多很多现实。 基础代理 已经在虚拟世界被验证强大的学习自主性。 - 其次,Jim Fan 认为它具有跨越Reality的拓展性。 开放游戏世界Minecraft 只是作为一个模拟现实(simulated realities)和实验基地,他们还在其他仿真环境进行训练和探索得到惊人进展。[2] - 如果它能够掌握 10,000 种不同的模拟现实,那么它就能很好地推广到我们的物理世界,而物理世界只是第 10,001 个现实。 - 换句话说,它正在加速应用于物理世界,特别是机器人技术。 参考Jim Fan的PPT 。 [3] Hans 注释: [1] 这套自主学习和迭代的机制,有三个核心组件: a)结合游戏反馈、执行错误、自我验证来完善程序的迭代提示机制;(让 GPT-4 写代码 ) b)用于存储和检索复杂行为的技能代码库;(任务的完善和迭代,成为了技能) c)最大化探索的自动课程。Hans 在去年相关论文讨论的《当GPT-4 遇上开放世界》中,有更详细的解读。 [2] 英伟达 Isaac Gym 是一个功能强大的端到端 GPU 加速仿真环境,用于强化学习,可用于训练机器人和模型。它是英伟达 Omniverse 平台的一部分,为机器人和计算机视觉算法提供基于物理的高保真模拟。 [3] TED 视频中Jim Fan的PPT : Invalid media:

封面图片

OpenAI推出CriticGPT模型,让GPT-4帮人类训练GPT-4

OpenAI推出CriticGPT模型,让GPT-4帮人类训练GPT-4 PANews 6月28日消息,据财联社报道,OpenAI新推出了一个基于GPT-4的模型CriticGPT,用于捕获ChatGPT代码输出中的错误。 CriticGPT的作用相当于让人们用GPT-4来查找GPT-4的错误。该模型可以对ChatGPT响应结果做出批评评论,从而帮助人工智能训练师在“基于人类反馈的强化学习(RLHF)”过程中发现的错误,为人工智能训练师提供明确的人工智能帮助。这一新模型的发布意在向投资者传达,OpenAI在RLHF赛道上的领先地位。RLHF的一个关键部分就是收集比较,让人工智能训练师对不同的ChatGPT回答进行评分,并反馈给ChatGPT。 研究发现,当训练师借助CriticGPT来审查ChatGPT输出代码时,他们的表现要比没有得到帮助的人高出60%。并且,在CriticGPT的帮助下,他们的指正比自己单独做的更加全面。

封面图片

OpenAI 正式公布人工智能语言模型 GPT-4

OpenAI 正式公布人工智能语言模型 GPT-4 3月15日早间,人工智能初创公司 OpenAI 正式公布最新一代人工智能语言模型 GPT-4。 它是 OpenAI 在放大深度学习方面的努力的最新里程碑,是一个大型多模态模型,可接受图像和文本输入,发出文本输出。 GPT-4 对月订阅费20美元 ChatGPT Plus 用户开放使用,同时也会纳入到微软的 Bing 聊天机器人中。 相关链接: - OpenAI-GPT-4 https://openai.com/research/gpt-4 - GPT-4 Developer Livestream http://www.youtube.com/watch?v=outcGtbnMuQ - ChatGPT Plus 访问 GPT-4 https://chat.openai.com - GPT-4 API 候补名单申请 https://openai.com/waitlist/gpt-4-api - 优先获得 API 权限的方法 https://github.com/openai/evals

封面图片

用GPT-4纠错GPT-4 OpenAI推出CriticGPT模型

用GPT-4纠错GPT-4 OpenAI推出CriticGPT模型 这一新模型的发布意在向投资者传达,OpenAI在RLHF赛道上的领先地位。RLHF的一个关键部分就是收集比较,让人工智能训练师对不同的ChatGPT回答进行评分,并反馈给ChatGPT。研究发现,当训练师借助CriticGPT来审查ChatGPT输出代码时,他们的表现要比没有得到帮助的人高出60%。并且,在CriticGPT的帮助下,他们的指正比自己单独做的更加全面。CriticGPT的审查随着大模型在推理和行为方面的进步,ChatGPT变得更加准确,它的错误也变得更加微妙。这可能会使人工智能训练师很难发现其中不准确的情况,从而使RLHF的比较任务更加困难。若是如果没有更好的工具,人们很难对这些系统进行评估。而OpenAI指出,CriticGPT模型将有能力评估先进人工智能系统的输出。OpenAI举了一个例子:用户对ChatGPT下达“用Python编写指定函数”的任务,ChatGPT根据这一指令给出了相关代码。对于ChatGPT给出的代码,CriticGPT点评了其中一条,并给出了效果更好的替代方案。还有一项数据显示,在OpenAI的实验中,随机训练师在超过60%的时间里更倾向于人类与CriticGPT合作后得出的指正,而不是单纯由人类训练师作出的批评。不过,OpenAI也指出,CriticGPT的建议并不总是正确的,但与没有人工智能的帮助相比,它还是可以帮助训练师找出模型中的更多问题。 ... PC版: 手机版:

封面图片

新版 GPT-4 Turbo 现已向付费 ChatGPT 用户开放

新版 GPT-4 Turbo 现已向付费 ChatGPT 用户开放 人工智能公司 OpenAI 今日 (12日) 宣布,新版 GPT-4 Turbo 现已向付费 ChatGPT 用户开放。新版本提高了写作、数学、逻辑推理和编码方面的能力。OpenAI 表示,例如“当使用 ChatGPT 进行写作时,回复将更加直接、不那么冗长,并且使用更多的对话语言。”承诺“将继续投入精力来改进模型”。GPT-4 Turbo 可在 ChatGPT Plus、Team、Enterprise 和 API 中使用。

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人