斯坦福的人机交互小组用大语言模型做了一个有二十五个自由自在生活的 AI 的小镇。

斯坦福的人机交互小组用大语言模型做了一个有二十五个自由自在生活的 AI 的小镇。 生成代理会起床、做早餐并去上班;艺术家画画,作家写作;他们形成观点、注意彼此并开始对话;他们回忆过去的日子,并在计划未来时进行反思。 为了实现生成代理,我们描述了一种架构,将大型语言模型扩展以使用自然语言存储完整记录代理体验,并随着时间合成这些记忆以进行更高级别的反思,并动态检索它们以规划行为。 我们实例化生成代理以填充受《模拟人生》启发的交互式沙盒环境,在那里最终用户可以使用自然语言与二十五个居民互动。 在评估中,这些生成代理产生可信度高且涌现性的社会行为:例如仅从单个用户指定一个想要举办情人节派对的概念开始,该派对自主地传播邀请两天后结识新朋友,互相邀请参加派对,并协调在正确的时间一起出现。 我们通过消融实验表明,代理架构的组成部分观察、规划和反思每个都对代理行为的可信度做出了重要贡献。 通过将大型语言模型与计算交互代理相融合,这项工作引入了架构和交互模式,以实现对人类行为的可信模拟。 围观地址 论文地址

相关推荐

封面图片

斯坦福的人机交互小组用大语言模型做了一个有二十五个自由自在生活的 AI 角色的小镇。

斯坦福的人机交互小组用大语言模型做了一个有二十五个自由自在生活的 AI 角色的小镇。 这些AI角色产生可信度高且涌现性的社会行为:例如仅从单个用户指定一个想要举办情人节派对的概念开始,该派对自主地传播邀请两天后结识新朋友,互相邀请参加派对,并协调时间一起出现。 论文地址 围观小镇地址

封面图片

斯坦福的人机交互小组用大语言模型做了一个有二十五个自由自在生活的 AI 角色的小镇。

斯坦福的人机交互小组用大语言模型做了一个有二十五个自由自在生活的 AI 角色的小镇。 这些AI角色产生可信度高且涌现性的社会行为:例如仅从单个用户指定一个想要举办情人节派对的概念开始,该派对自主地传播邀请两天后结识新朋友,互相邀请参加派对,并协调时间一起出现。

封面图片

数字人对话系统 - :将大型语言模型与视觉模型相结合的智能AI系统,创建了一种全新的人机交互方式,集成了各种技术,例如Whisp

数字人对话系统 - :将大型语言模型与视觉模型相结合的智能AI系统,创建了一种全新的人机交互方式,集成了各种技术,例如Whisper、Linly、微软语音服务和SadTalker会说话的生成系统。 该系统部署在Gradio上,允许用户通过提供图像与AI助手进行交谈。用户可以根据自己的喜好进行自由的对话或内容生成。

封面图片

《西部世界》雏形:斯坦福打造自动运行的AI小镇

《西部世界》雏形:斯坦福打造自动运行的AI小镇 斯坦福的人机交互小组用大型语言模型做了一个有25个智能体生活的AI小镇。研究者用自然语言描述了每个智能体的身份,包括它们的职业以及与其他智能体的关系,并将这些信息作为种子记忆。每个智能体都有完整的记忆流,会将记忆合成更高层次的推论,然后将这些结论转换为行动计划。 智能体如果看到它们的早餐正在燃烧,会关掉炉子;如果浴室有人,会在外面等待;如果遇到想交谈的另一个智能体,会停下来聊天。智能体还会互相交换信息,形成新的关系。这些社会行为是自然产生的,而不是预先设定好的。 在模拟中,伊莎贝拉计划举办一场情人节派对。她传播了这个信息,在模拟结束时,12个角色知道了这件事。其中7个人「犹豫不决」 3 个人已有其他计划,4 个人没有表露想法,这和人类的相处一样。()

封面图片

是一个结合了视觉基础模型的系统,使用户能够超越语言格式与 ChatGPT 交互,解决复杂的视觉任务。

是一个结合了视觉基础模型的系统,使用户能够超越语言格式与 ChatGPT 交互,解决复杂的视觉任务。 ChatGPT 正在吸引跨领域的兴趣,因为它提供了一种语言界面,具有跨多个领域的卓越对话能力和推理能力。 然而,由于 ChatGPT 是用语言训练的,它目前无法处理或生成来自视觉世界的图像。同时,Visual Foundation Models,如 Visual Transformers 或 Stable Diffusion,虽然表现出强大的视觉理解和生成能力,但它们只是特定任务的专家,具有一轮固定的输入和输出。 为此,我们构建了一个名为 \textbf{Visual ChatGPT} 的系统,其中包含不同的视觉基础模型,使用户能够通过以下方式与 ChatGPT 进行交互: 1)不仅发送和接收语言,还发送和接收图像 2)提供复杂的视觉问题或视觉编辑指令,需要多个 AI 模型进行多步骤协作。 3) 提供反馈并要求更正结果。

封面图片

最近拜读了去年火热的斯坦福AI小镇文章的作者Joon Sung Park的两篇文章,分别是22年的Social Simulacr

最近拜读了去年火热的斯坦福AI小镇文章的作者Joon Sung Park的两篇文章,分别是22年的Social Simulacra和23年的Generative Agents(斯坦福AI小镇本文)。两篇都发在交互顶会UIST上(后者得了best paper) 比起Generative agents,22年发表的Social Simulacra聚焦于一个更小的领域- 交互设计原型(prototyping)。具体的思路是:交互原型设计师常常需要了解一个设计的效果,目前的常用做法是招募少量的真人做用户调查。 然而,现实情况下,少量用户的反馈往往并不能体现出这个设计的实际效果,或者使用的潜在隐患。这是因为“用户的行为会彼此影响”。 作者在这里举了“反社会行为”作为例子,比如说,一个人在使用社交媒体时,可能只会根据自己的信息发表观点,但是当很多人都参与讨论时,就会带来煽动性言论(inflammatory comments)或者钓鱼引战(trolling)等现象。这样的问题在小规模的用户测试中是无法被检测到的。 为了在“设计阶段”就能了解到大规模用户可能涌现的群体行为,有一种特定的方法叫做social computing system。这个方法可以看作代理人基模型(agent-based model)在设计学中的应用。尽管代理人基模型在其他学科里已经有很广泛的应用了,但是在设计和用户体验方面的探索还很少,这是本研究的一个创新点。 这篇文章的另一个亮点在于,使用了大语言模型(llm):首先,设计师把自己的设计意图输入给语言模型,然后语言模型生成一系列的用户行为(比如发帖/回复)。基于大量社交媒体数据训练的GPT3,已经足够生成各种积极或者消极的回复,其中也包含作者关注的反社会行为。 最后,作者通过用户实验+一个类似于图灵实验的方式来说明这个方法的有效性:让用户区分真实的用户行为,和使用Social Simulacra生成的用户行为。结果显示,用户在超过40%的数据上都无法判断这是真人还是生成数据,这说明了Social Simulacra在模拟真实用户的表现上效果很好。 阅读22年的Social Simulacra一文,可以看到很多Generative agents的影子:二者都使用了大语言模型(GPT3和GPT3.5),二者都尝试用llm去模拟人(一种是社交媒体行为,一种是生活行为),二者都考虑到了人类互相影响所带来的1+1>2的集体效应,并尝试用技术的方法去模拟这种人类群体效应。 两句话总结体会:1. 阅读Social Simulacra对于理解Generative Agents的想法有很大的帮助,两者结合更可以体现作者思考的连贯性。2. 此外,作者对前沿技术的敏感也让人惊讶。想到这篇文章要在22年3月投稿,而gpt3在20年6月才首次发布beta版本。要在很短的时间内把一项尚不成熟的技术用于解决跨学科问题,作者的技术嗅觉真是很准确也很超强啊。

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人