最近拜读了去年火热的斯坦福AI小镇文章的作者Joon Sung Park的两篇文章,分别是22年的Social Simulacr

最近拜读了去年火热的斯坦福AI小镇文章的作者Joon Sung Park的两篇文章,分别是22年的Social Simulacra和23年的Generative Agents(斯坦福AI小镇本文)。两篇都发在交互顶会UIST上(后者得了best paper) 比起Generative agents,22年发表的Social Simulacra聚焦于一个更小的领域- 交互设计原型(prototyping)。具体的思路是:交互原型设计师常常需要了解一个设计的效果,目前的常用做法是招募少量的真人做用户调查。 然而,现实情况下,少量用户的反馈往往并不能体现出这个设计的实际效果,或者使用的潜在隐患。这是因为“用户的行为会彼此影响”。 作者在这里举了“反社会行为”作为例子,比如说,一个人在使用社交媒体时,可能只会根据自己的信息发表观点,但是当很多人都参与讨论时,就会带来煽动性言论(inflammatory comments)或者钓鱼引战(trolling)等现象。这样的问题在小规模的用户测试中是无法被检测到的。 为了在“设计阶段”就能了解到大规模用户可能涌现的群体行为,有一种特定的方法叫做social computing system。这个方法可以看作代理人基模型(agent-based model)在设计学中的应用。尽管代理人基模型在其他学科里已经有很广泛的应用了,但是在设计和用户体验方面的探索还很少,这是本研究的一个创新点。 这篇文章的另一个亮点在于,使用了大语言模型(llm):首先,设计师把自己的设计意图输入给语言模型,然后语言模型生成一系列的用户行为(比如发帖/回复)。基于大量社交媒体数据训练的GPT3,已经足够生成各种积极或者消极的回复,其中也包含作者关注的反社会行为。 最后,作者通过用户实验+一个类似于图灵实验的方式来说明这个方法的有效性:让用户区分真实的用户行为,和使用Social Simulacra生成的用户行为。结果显示,用户在超过40%的数据上都无法判断这是真人还是生成数据,这说明了Social Simulacra在模拟真实用户的表现上效果很好。 阅读22年的Social Simulacra一文,可以看到很多Generative agents的影子:二者都使用了大语言模型(GPT3和GPT3.5),二者都尝试用llm去模拟人(一种是社交媒体行为,一种是生活行为),二者都考虑到了人类互相影响所带来的1+1>2的集体效应,并尝试用技术的方法去模拟这种人类群体效应。 两句话总结体会:1. 阅读Social Simulacra对于理解Generative Agents的想法有很大的帮助,两者结合更可以体现作者思考的连贯性。2. 此外,作者对前沿技术的敏感也让人惊讶。想到这篇文章要在22年3月投稿,而gpt3在20年6月才首次发布beta版本。要在很短的时间内把一项尚不成熟的技术用于解决跨学科问题,作者的技术嗅觉真是很准确也很超强啊。

相关推荐

封面图片

最近一直在思考设计师在 AI 时代的定位和职能问题,昨天看到一篇文章,《模型设计师的崛起》有点意思。

最近一直在思考设计师在 AI 时代的定位和职能问题,昨天看到一篇文章,《模型设计师的崛起》有点意思。 他提出了模型设计师这一职位,指出设计师不应仅仅关注AI模型的界面设计,而应深入了解模型的核心构造。 不过这个内容主要还是跟 LLM 相关,设计师在图像和视频模型的优化和训练上其实可以做更多事情,重要性也比 LLM 要更强,我找时间写一下这部分内容。 模型设计师的职责包括与工程团队紧密合作,应对AI模型构建中固有的诸如幻觉、隐私和偏见等问题。 还给出了一些模型设计师需要做的例子,比如通过体验优化引导和简化用户书写提示词的难度等。 翻译及原文:

封面图片

斯坦福大学做出来一个几乎没有幻觉的大语言模型:WikiChat

斯坦福大学做出来一个几乎没有幻觉的大语言模型:WikiChat WikiChat 在与人类用户聊近期的一些话题时,事实准确性高达 97.9% ,比 GPT-4 高出 55.0%,用户评价也更高。WikiChat 7 通过以下7个步骤来减少模型幻觉,值得参考。

封面图片

最近读到的LLM相关的文章,个人感觉质量最高的是这两篇:

最近读到的LLM相关的文章,个人感觉质量最高的是这两篇: 1. 马丁:大模型赛道的技术和应用分析 从技术测的预训练、Alignment(SFT / RLHF)、评测、MOE,到团队组织,到创业环境,再到应用层可能的机会(2C/2B),非常系统地给出了LLM现状的一个综述。尽管其中有不少都是opinions,但这些opinions是经过深度思考和前沿交流之后沉淀下来的,非常干,值得关注。 对个人启发比较大的几个点: - 目前制约大模型能力接近GPT4的主要因素不是knowhow(正在迅速贬值),而是如何在算力有限的情况下更快地试错。这样看来,随着中美算力的差距越来越大,模型能力的差距可能正在拉大而不是缩小。这可以通过即将发布的Google Gemini能否大幅超越GPT4来验证。 - 在预训练中,大家过于关注算力,对数据规模、数据质量、数据管理、数据配比、数据清洗、scaling up(做小规模的精准验证)的关注不够。MOE尤其考验数据和Infra能力; - 尚未证明RLHF一定比SFT更好,更难倒是真的; - 9月是大模型创业公司下场的最后期限,之后就太晚了。投资人之后会更关注Infra和应用方向。好团队的标准:技术实力(工程能力而不是学术能力)+ 行业资源knowhow( + 政府资源额外加分); - Infra层面上,未来需要一个足够强的未做过alignment的foundation model,在此基础上提供加训、自定义对齐、评测、部署等更加精细的服务,而不是像现在这样只是简单地调用各个大模型的API; - 向量数据库解决的是匹配外部知识的问题,它既不是唯一解,也不是最优解,甚至不如一些传统的搜索和NLP算法。如果是引入外部知识,那么更好的方法是pretrain或continued pretrain; - 在国内,相对于2B,更看好2C,但character.ai之类的chatbot窗口期已过。 2. 对话杨植麟:Moonshot AI即将完成超10亿元融资,公司最终目标并非超越OpenAI

封面图片

斯坦福的人机交互小组用大语言模型做了一个有二十五个自由自在生活的 AI 的小镇。

斯坦福的人机交互小组用大语言模型做了一个有二十五个自由自在生活的 AI 的小镇。 生成代理会起床、做早餐并去上班;艺术家画画,作家写作;他们形成观点、注意彼此并开始对话;他们回忆过去的日子,并在计划未来时进行反思。 为了实现生成代理,我们描述了一种架构,将大型语言模型扩展以使用自然语言存储完整记录代理体验,并随着时间合成这些记忆以进行更高级别的反思,并动态检索它们以规划行为。 我们实例化生成代理以填充受《模拟人生》启发的交互式沙盒环境,在那里最终用户可以使用自然语言与二十五个居民互动。 在评估中,这些生成代理产生可信度高且涌现性的社会行为:例如仅从单个用户指定一个想要举办情人节派对的概念开始,该派对自主地传播邀请两天后结识新朋友,互相邀请参加派对,并协调在正确的时间一起出现。 我们通过消融实验表明,代理架构的组成部分观察、规划和反思每个都对代理行为的可信度做出了重要贡献。 通过将大型语言模型与计算交互代理相融合,这项工作引入了架构和交互模式,以实现对人类行为的可信模拟。 围观地址 论文地址

封面图片

斯坦福的人机交互小组用大语言模型做了一个有二十五个自由自在生活的 AI 角色的小镇。

斯坦福的人机交互小组用大语言模型做了一个有二十五个自由自在生活的 AI 角色的小镇。 这些AI角色产生可信度高且涌现性的社会行为:例如仅从单个用户指定一个想要举办情人节派对的概念开始,该派对自主地传播邀请两天后结识新朋友,互相邀请参加派对,并协调时间一起出现。 论文地址 围观小镇地址

封面图片

斯坦福的人机交互小组用大语言模型做了一个有二十五个自由自在生活的 AI 角色的小镇。

斯坦福的人机交互小组用大语言模型做了一个有二十五个自由自在生活的 AI 角色的小镇。 这些AI角色产生可信度高且涌现性的社会行为:例如仅从单个用户指定一个想要举办情人节派对的概念开始,该派对自主地传播邀请两天后结识新朋友,互相邀请参加派对,并协调时间一起出现。

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人