斯坦福的人机交互小组用大语言模型做了一个有二十五个自由自在生活的 AI 的小镇。

斯坦福的人机交互小组用大语言模型做了一个有二十五个自由自在生活的 AI 的小镇。生成代理会起床、做早餐并去上班；艺术家画画，作家写作；他们形成观点、注意彼此并开始对话；他们回忆过去的日子，并在计划未来时进行反思。为了实现生成代理，我们描述了一种架构，将大型语言模型扩展以使用自然语言存储完整记录代理体验，并随着时间合成这些记忆以进行更高级别的反思，并动态检索它们以规划行为。我们实例化生成代理以填充受《模拟人生》启发的交互式沙盒环境，在那里最终用户可以使用自然语言与二十五个居民互动。在评估中，这些生成代理产生可信度高且涌现性的社会行为：例如仅从单个用户指定一个想要举办情人节派对的概念开始，该派对自主地传播邀请两天后结识新朋友，互相邀请参加派对，并协调在正确的时间一起出现。我们通过消融实验表明，代理架构的组成部分观察、规划和反思每个都对代理行为的可信度做出了重要贡献。通过将大型语言模型与计算交互代理相融合，这项工作引入了架构和交互模式，以实现对人类行为的可信模拟。围观地址论文地址

在Telegram中查看

相关推荐

斯坦福的人机交互小组用大语言模型做了一个有二十五个自由自在生活的 AI 角色的小镇。

斯坦福的人机交互小组用大语言模型做了一个有二十五个自由自在生活的 AI 角色的小镇。这些AI角色产生可信度高且涌现性的社会行为：例如仅从单个用户指定一个想要举办情人节派对的概念开始，该派对自主地传播邀请两天后结识新朋友，互相邀请参加派对，并协调时间一起出现。论文地址围观小镇地址

斯坦福的人机交互小组用大语言模型做了一个有二十五个自由自在生活的 AI 角色的小镇。

斯坦福的人机交互小组用大语言模型做了一个有二十五个自由自在生活的 AI 角色的小镇。这些AI角色产生可信度高且涌现性的社会行为：例如仅从单个用户指定一个想要举办情人节派对的概念开始，该派对自主地传播邀请两天后结识新朋友，互相邀请参加派对，并协调时间一起出现。

《西部世界》雏形：斯坦福打造自动运行的AI小镇

《西部世界》雏形：斯坦福打造自动运行的AI小镇斯坦福的人机交互小组用大型语言模型做了一个有25个智能体生活的AI小镇。研究者用自然语言描述了每个智能体的身份，包括它们的职业以及与其他智能体的关系，并将这些信息作为种子记忆。每个智能体都有完整的记忆流，会将记忆合成更高层次的推论，然后将这些结论转换为行动计划。智能体如果看到它们的早餐正在燃烧，会关掉炉子；如果浴室有人，会在外面等待；如果遇到想交谈的另一个智能体，会停下来聊天。智能体还会互相交换信息，形成新的关系。这些社会行为是自然产生的，而不是预先设定好的。在模拟中，伊莎贝拉计划举办一场情人节派对。她传播了这个信息，在模拟结束时，12个角色知道了这件事。其中7个人「犹豫不决」 3 个人已有其他计划，4 个人没有表露想法，这和人类的相处一样。()

最近拜读了去年火热的斯坦福AI小镇文章的作者Joon Sung Park的两篇文章，分别是22年的Social Simulacr

最近拜读了去年火热的斯坦福AI小镇文章的作者Joon Sung Park的两篇文章，分别是22年的Social Simulacra和23年的Generative Agents（斯坦福AI小镇本文）。两篇都发在交互顶会UIST上（后者得了best paper）比起Generative agents，22年发表的Social Simulacra聚焦于一个更小的领域- 交互设计原型（prototyping）。具体的思路是：交互原型设计师常常需要了解一个设计的效果，目前的常用做法是招募少量的真人做用户调查。然而，现实情况下，少量用户的反馈往往并不能体现出这个设计的实际效果，或者使用的潜在隐患。这是因为“用户的行为会彼此影响”。作者在这里举了“反社会行为”作为例子，比如说，一个人在使用社交媒体时，可能只会根据自己的信息发表观点，但是当很多人都参与讨论时，就会带来煽动性言论（inflammatory comments）或者钓鱼引战（trolling）等现象。这样的问题在小规模的用户测试中是无法被检测到的。为了在“设计阶段”就能了解到大规模用户可能涌现的群体行为，有一种特定的方法叫做social computing system。这个方法可以看作代理人基模型（agent-based model）在设计学中的应用。尽管代理人基模型在其他学科里已经有很广泛的应用了，但是在设计和用户体验方面的探索还很少，这是本研究的一个创新点。这篇文章的另一个亮点在于，使用了大语言模型（llm）：首先，设计师把自己的设计意图输入给语言模型，然后语言模型生成一系列的用户行为（比如发帖/回复）。基于大量社交媒体数据训练的GPT3，已经足够生成各种积极或者消极的回复，其中也包含作者关注的反社会行为。最后，作者通过用户实验＋一个类似于图灵实验的方式来说明这个方法的有效性：让用户区分真实的用户行为，和使用Social Simulacra生成的用户行为。结果显示，用户在超过40%的数据上都无法判断这是真人还是生成数据，这说明了Social Simulacra在模拟真实用户的表现上效果很好。阅读22年的Social Simulacra一文，可以看到很多Generative agents的影子：二者都使用了大语言模型（GPT3和GPT3.5），二者都尝试用llm去模拟人（一种是社交媒体行为，一种是生活行为），二者都考虑到了人类互相影响所带来的1+1＞2的集体效应，并尝试用技术的方法去模拟这种人类群体效应。两句话总结体会：1. 阅读Social Simulacra对于理解Generative Agents的想法有很大的帮助，两者结合更可以体现作者思考的连贯性。2. 此外，作者对前沿技术的敏感也让人惊讶。想到这篇文章要在22年3月投稿，而gpt3在20年6月才首次发布beta版本。要在很短的时间内把一项尚不成熟的技术用于解决跨学科问题，作者的技术嗅觉真是很准确也很超强啊。

可能是近期关于生成式 AI 的最有趣的一篇论文，斯坦福的人机交互小组发表于上周五。简单地说，他们用大语言模型做了一个有二十五个自

：基于开源的 AI 软件工程师，可以理解人类的高级指令，并根据这些指令，分解成步骤，进行相关信息的研究，并编写代码实现目标。

：基于开源的 AI 软件工程师，可以理解人类的高级指令，并根据这些指令，分解成步骤，进行相关信息的研究，并编写代码实现目标。 Devika的系统架构由以下关键组件组成：用户界面：基于网络的聊天界面，用于与 Devika 交互、查看项目文件以及监控代理的状态。 Agent Core：编排AI规划、推理和执行过程的核心组件。它与各种子代理和模块通信以完成任务。大型语言模型：Devika 利用Claude、GPT-4和Ollama 的本地 LLM等最先进的语言模型进行自然语言理解、生成和推理。规划和推理引擎：负责将高层目标分解为可操作的步骤，并根据当前环境做出决策。研究模块：利用关键字提取和网页浏览功能来收集当前任务的相关信息。代码编写模块：根据计划、研究结果和用户需求生成代码。支持多种编程语言。浏览器交互模块：使 Devika 能够根据需要导航网站、提取信息并与 Web 元素交互。知识库：存储和检索项目特定信息、代码片段和学到的知识，以便高效访问。数据库：保存项目数据、代理状态和配置设置。

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人