最近拜读了去年火热的斯坦福AI小镇文章的作者Joon Sung Park的两篇文章,分别是22年的Social Simulacr
最近拜读了去年火热的斯坦福AI小镇文章的作者Joon Sung Park的两篇文章,分别是22年的Social Simulacra和23年的Generative Agents(斯坦福AI小镇本文)。两篇都发在交互顶会UIST上(后者得了best paper) 比起Generative agents,22年发表的Social Simulacra聚焦于一个更小的领域- 交互设计原型(prototyping)。具体的思路是:交互原型设计师常常需要了解一个设计的效果,目前的常用做法是招募少量的真人做用户调查。 然而,现实情况下,少量用户的反馈往往并不能体现出这个设计的实际效果,或者使用的潜在隐患。这是因为“用户的行为会彼此影响”。 作者在这里举了“反社会行为”作为例子,比如说,一个人在使用社交媒体时,可能只会根据自己的信息发表观点,但是当很多人都参与讨论时,就会带来煽动性言论(inflammatory comments)或者钓鱼引战(trolling)等现象。这样的问题在小规模的用户测试中是无法被检测到的。 为了在“设计阶段”就能了解到大规模用户可能涌现的群体行为,有一种特定的方法叫做social computing system。这个方法可以看作代理人基模型(agent-based model)在设计学中的应用。尽管代理人基模型在其他学科里已经有很广泛的应用了,但是在设计和用户体验方面的探索还很少,这是本研究的一个创新点。 这篇文章的另一个亮点在于,使用了大语言模型(llm):首先,设计师把自己的设计意图输入给语言模型,然后语言模型生成一系列的用户行为(比如发帖/回复)。基于大量社交媒体数据训练的GPT3,已经足够生成各种积极或者消极的回复,其中也包含作者关注的反社会行为。 最后,作者通过用户实验+一个类似于图灵实验的方式来说明这个方法的有效性:让用户区分真实的用户行为,和使用Social Simulacra生成的用户行为。结果显示,用户在超过40%的数据上都无法判断这是真人还是生成数据,这说明了Social Simulacra在模拟真实用户的表现上效果很好。 阅读22年的Social Simulacra一文,可以看到很多Generative agents的影子:二者都使用了大语言模型(GPT3和GPT3.5),二者都尝试用llm去模拟人(一种是社交媒体行为,一种是生活行为),二者都考虑到了人类互相影响所带来的1+1>2的集体效应,并尝试用技术的方法去模拟这种人类群体效应。 两句话总结体会:1. 阅读Social Simulacra对于理解Generative Agents的想法有很大的帮助,两者结合更可以体现作者思考的连贯性。2. 此外,作者对前沿技术的敏感也让人惊讶。想到这篇文章要在22年3月投稿,而gpt3在20年6月才首次发布beta版本。要在很短的时间内把一项尚不成熟的技术用于解决跨学科问题,作者的技术嗅觉真是很准确也很超强啊。
在Telegram中查看相关推荐

🔍 发送关键词来寻找群组、频道或视频。
启动SOSO机器人