斯坦福的人机交互小组用大语言模型做了一个有二十五个自由自在生活的 AI 的小镇。

斯坦福的人机交互小组用大语言模型做了一个有二十五个自由自在生活的AI的小镇。生成代理会起床、做早餐并去上班;艺术家画画,作家写作;他们形成观点、注意彼此并开始对话;他们回忆过去的日子,并在计划未来时进行反思。为了实现生成代理,我们描述了一种架构,将大型语言模型扩展以使用自然语言存储完整记录代理体验,并随着时间合成这些记忆以进行更高级别的反思,并动态检索它们以规划行为。我们实例化生成代理以填充受《模拟人生》启发的交互式沙盒环境,在那里最终用户可以使用自然语言与二十五个居民互动。在评估中,这些生成代理产生可信度高且涌现性的社会行为:例如仅从单个用户指定一个想要举办情人节派对的概念开始,该派对自主地传播邀请两天后结识新朋友,互相邀请参加派对,并协调在正确的时间一起出现。我们通过消融实验表明,代理架构的组成部分——观察、规划和反思——每个都对代理行为的可信度做出了重要贡献。通过将大型语言模型与计算交互代理相融合,这项工作引入了架构和交互模式,以实现对人类行为的可信模拟。围观地址https://reverie.herokuapp.com/arXiv_Demo/#论文地址https://arxiv.org/abs/2304.03442

相关推荐

封面图片

斯坦福的人机交互小组用大语言模型做了一个有二十五个自由自在生活的 AI 角色的小镇。

斯坦福的人机交互小组用大语言模型做了一个有二十五个自由自在生活的AI角色的小镇。这些AI角色产生可信度高且涌现性的社会行为:例如仅从单个用户指定一个想要举办情人节派对的概念开始,该派对自主地传播邀请两天后结识新朋友,互相邀请参加派对,并协调时间一起出现。论文地址https://arxiv.org/abs/2304.03442围观小镇地址https://reverie.herokuapp.com/arXiv_Demo/#

封面图片

斯坦福的人机交互小组用大语言模型做了一个有二十五个自由自在生活的AI角色的小镇。这些AI角色产生可信度高且涌现性的社会行为:例如

封面图片

可能是近期关于生成式AI的最有趣的一篇论文,斯坦福的人机交互小组发表于上周五。简单地说,他们用大语言模型做了一个有二十五个自由自

封面图片

《西部世界》雏形:斯坦福打造自动运行的AI小镇

《西部世界》雏形:斯坦福打造自动运行的AI小镇斯坦福的人机交互小组用大型语言模型做了一个有25个智能体生活的AI小镇。研究者用自然语言描述了每个智能体的身份,包括它们的职业以及与其他智能体的关系,并将这些信息作为种子记忆。每个智能体都有完整的记忆流,会将记忆合成更高层次的推论,然后将这些结论转换为行动计划。智能体如果看到它们的早餐正在燃烧,会关掉炉子;如果浴室有人,会在外面等待;如果遇到想交谈的另一个智能体,会停下来聊天。智能体还会互相交换信息,形成新的关系。这些社会行为是自然产生的,而不是预先设定好的。在模拟中,伊莎贝拉计划举办一场情人节派对。她传播了这个信息,在模拟结束时,12个角色知道了这件事。其中7个人「犹豫不决」——3个人已有其他计划,4个人没有表露想法,这和人类的相处一样。小镇地址:https://reverie.herokuapp.com/arXiv_Demo/——频道:@TestFlightCN

封面图片

LLaV:一个拥有类似 GPT-4 的大语言+视觉模型

LLaV:一个拥有类似GPT-4的大语言+视觉模型“使用机器生成的指令跟踪数据对大型语言模型(LLM)进行指令调优提高了新任务的零样本能力,但这一想法在多模式领域的探索较少。所以,我们开始尝试使用纯语言GPT-4生成多模态语言图像指令跟踪数据。通过对此类生成的数据进行指令调整,并推出了LLaVA:大型语言和视觉助手。这是一种端到端训练的大型多模态模型,连接视觉编码器和LLM以实现通用视觉和语言理解。早期实验表明,LLaVA展示了令人印象深刻的多模型聊天能力,有时在看不见的图像/指令上表现出多模态GPT-4的行为,并且与合成多模态指令跟随数据集上的GPT-4相比,相对分数达到了85.1%。当在ScienceQA上进行微调时,LLaVA和GPT-4的协同作用达到了92.53%,这个准确率颇高。因此,我们在GitHub正式开放GPT-4生成的视觉指令调整数据、模型和代码库。”

封面图片

Visual ChatGPT 是一个结合了视觉基础模型的系统,使用户能够超越语言格式与 ChatGPT 交互,解决复杂的视觉任务

是一个结合了视觉基础模型的系统,使用户能够超越语言格式与ChatGPT交互,解决复杂的视觉任务。ChatGPT正在吸引跨领域的兴趣,因为它提供了一种语言界面,具有跨多个领域的卓越对话能力和推理能力。然而,由于ChatGPT是用语言训练的,它目前无法处理或生成来自视觉世界的图像。同时,VisualFoundationModels,如VisualTransformers或StableDiffusion,虽然表现出强大的视觉理解和生成能力,但它们只是特定任务的专家,具有一轮固定的输入和输出。为此,我们构建了一个名为\textbf{VisualChatGPT}的系统,其中包含不同的视觉基础模型,使用户能够通过以下方式与ChatGPT进行交互:1)不仅发送和接收语言,还发送和接收图像2)提供复杂的视觉问题或视觉编辑指令,需要多个AI模型进行多步骤协作。3)提供反馈并要求更正结果。

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人