最近比较火的一个图灵测试游戏human or not,跟随机匹配到的对象聊2分钟,然后判断对方是真人还是AI。

最近比较火的一个图灵测试游戏humanornot,跟随机匹配到的对象聊2分钟,然后判断对方是真人还是AI。链接:https://app.humanornot.ai/按照这个思路,我又想了三个图灵测试游戏:1.蒙面社交游戏:随机匹配人类或机器人进行聊天,双方同意后揭晓身份,用户可以选择加对方(人类或机器人)为好友。2.反向图灵测试:人类需要向对面证明自己是人类而不是机器人,累计得分高者胜出。3.模仿游戏大赛:人类可以通过制定规则(写prompts)制作机器人来进行图灵测试,机器人得分高者胜出。

相关推荐

封面图片

研究称 GPT-4 通过图灵测试

研究称GPT-4通过图灵测试据科创板日报,自英国计算机科学家阿兰・图灵于1950年提出关于判断机器是否能够思考的著名试验“图灵测试”以来,该测试就被视为判断计算机是否具有模拟人类思维能力的关键。两位研究人员以真人、初代聊天机器人ELIZA、GPT-3.5和GPT-4为研究对象,试图了解谁在诱使人类参与者认为它是人类方面表现最成功。结果显示,多达54%的参与者将GPT-4误认为真人,是迄今为止首次有AI模型以如此高的结果通过图灵测试。

封面图片

GPT-4已通过图灵测试

GPT-4已通过图灵测试计算机科学家约瑟夫-韦曾鲍姆(JosephWeizenbaum)于1966年开发的计算机程序Eliza表现最差,只有22%的人将其归类为人类。据科学家们称,这些结果首次提供了人工智能系统通过双人互动图灵测试的确凿证据,而且这很可能适用于未来几乎所有最先进的聊天机器人。英国数学家和计算机科学家阿兰-图灵于1950年首次提出了以他的名字命名的"模仿游戏"对话强度测试。从那时起,它就成了确定机器模仿人类对话能力的一个著名但有争议的基准。在该测试的现代变体中,人类"评委"会在不知道谁是谁的情况下与另一个人类或聊天机器人对话。如果面试官在50%的情况下不能可靠地区分计算机系统和人类,那么机器就被认为通过了测试。在当前的研究中,人类审讯者与代表其他人类、大型语言模型GPT-4和GPT-3.5以及基于对称列表处理器(SLIP)的简易对话系统Eliza的各种"证人"进行了互动,研究结果可在预印本服务器Arxiv上找到。研究人员随机分配人类参与者扮演法官或证人的角色。样本包括101个人类和GPT-3.5游戏,以及100个GPT4和Eliza游戏,所有游戏均通过一种消息应用程序进行,每个游戏持续五分钟。在402名审问者中,168人为女性,212人为男性,9人为非二元。13人不想提供任何信息。参与者的平均年龄为35岁。在2023年的上一次研究中,Eliza的表现明显更好,没有一个模型通过测试。这一次,科学家们采用了表现最好的GPT-4命令集(提示),并对其进行了修改。提示的第一部分指示模型表现得像一个年轻人,不要太认真地对待游戏,使用口语,不要出现拼写和语法错误。此外,它还不能提供太多的知识,尤其是语文和数学方面的知识。每轮测试开始时,都会添加一些额外的信息,如姓名、地点和时间戳。二人解释说,人类之所以不能百分之百地识别同类,是因为提问者认为人工智能的效率越来越高。这增加了他们将人类错误地识别为机器的可能性。为了深入了解影响审讯者做出决定的定性因素,研究小组对他们使用的策略和做出判断的理由进行了分类。36%的人询问证人的个人细节或日常活动。第二和第三类最常见的是社会和情感问题(25%)--例如,有关意见、经历和幽默的问题。审问者就其决定给出的最常见理由(43%)与基于拼写、语法、大小写和语气的语言风格有关。24%的人关注社会情感因素,如幽默感或个性。研究人员警告说,这些结果表明"当前人工智能系统的欺骗行为可能不会被发现"。能够成功模仿人类的机器人可能会产生"深远的经济和社会影响"。...PC版:https://www.cnbeta.com.tw/articles/soft/1434989.htm手机版:https://m.cnbeta.com.tw/view/1434989.htm

封面图片

搭载AI的最新式人工智能机器人「マキノ」,是世界上首个通过图灵测试的。

搭载AI的最新式人工智能机器人「マキノ」,是世界上首个通过图灵测试的机器人。因以假乱真的高品质外貌和言行引人注目,另外部分机能有待完善,拥有很大的成长空间。开发者的主人公·博,及其搭档カレン,以及试作品プロト,最后是以女仆身份在博身边工作的マキナ,人类与人工智能的四人生活拉开帷幕。在与日益成长的マキナ的接触中,博的心底渐渐萌发特殊的感情——人工智能的女主角,才华横溢而孤独的男主角。两人共同成长,跨越命运,及至赢得幸福。这是一则连接心灵的纯爱物语。官中无码#PC#Tyranor#PURESIS#QUALIA~约束の轨迹

封面图片

瑜伽球上训练出来的机器狗比大多数健身者更能灵活运用训练资源

瑜伽球上训练出来的机器狗比大多数健身者更能灵活运用训练资源DrEureka是一个任何人都可以获取的开源软件包,用于使用大型语言模型(LLM)(如ChatGPT4)训练机器人执行现实世界中的任务。这是一个"模拟到现实"系统,也就是说,它在虚拟环境中使用模拟物理原理对机器人进行教学,然后再在现实空间中实施。吉姆-范(JimFan)博士是DrEureka的开发者之一,他部署的UnitreeGo1四足机器人一跃成为头条新闻。这是一款"低成本"、支持良好的开源机器人--这很方便,因为即使有了人工智能,机器人宠物仍然很容易摔伤。至于"低成本",它在亚马逊上的售价为5899美元,评分为1星……DrEureka中的"Dr"代表"领域随机化",即在模拟环境中随机化摩擦、质量、阻尼、重心等变量。只需在ChatGPT等LLM中输入一些提示,人工智能就能编写代码,创建一个奖励/惩罚系统,在虚拟空间中训练机器人,其中0=失败,高于0则为胜利。得分越高越好。它可以通过最小化和最大化球的弹跳力、运动强度、肢体自由度和阻尼等方面的失效点/爆发点来创建参数。作为一个LLM,它可以毫不费力地大量创建这些参数,供训练系统同时运行。每次模拟后,GPT还可以反思虚拟机器人的表现,以及如何改进。如果超出或违反参数,例如电机过热或试图以超出其能力的方式衔接肢体,都将导致0分...没有人喜欢得零分,人工智能也不例外。提示LLM编写代码需要安全指令--否则,研究小组发现GPT会努力追求最佳性能,会在没有指导的情况下在模拟中"作弊"。这在模拟中没有问题,但在现实生活中可能会导致电机过热或肢体过度伸展,从而损坏机器人--研究人员称这种现象为"退化行为"。虚拟机器人自学成才的非自然行为的一个例子是,它发现自己可以更快地移动,方法是将臀部插入地面,用三只脚拖着臀部在地板上窜来窜去。虽然这在模拟中是一种优势,但当机器人在现实世界中尝试时就尴尬了。因此,研究人员指示GPT要格外小心,因为机器人将在真实世界中接受测试--为此,GPT创建了安全功能,如平滑动作、躯干方向、躯干高度,并确保机器人的电机不会扭矩过大。如果机器人作弊,违反了这些参数,其奖励函数就会降低得分。安全功能可以减少退化和不自然的行为,比如不必要的骨盆推力。那么它的表现如何呢?比我们强。DrEureka在训练机器人"pooch"的过程中击败了人类,在实际的混合地形中,它的前进速度和行进距离分别提高了34%和20%。DrEureka基于GPT的训练系统在现实世界中轻松击败人类训练的机器人如何做到?研究人员认为,这与教学方式有关。人类倾向于课程式的教学环境--把任务分解成一个个小步骤,并试图孤立地解释它们,而GPT能够有效地一次性传授所有知识。这是我们根本无法做到的。DrEureka是同类产品中的首创。它能够从模拟世界"零距离"进入现实世界。想象一下,在对周围世界几乎一无所知的情况下,你被推出巢穴,只能自己摸索。这就是"零镜头"。DrEureka的创造者认为,如果他们能向GPT提供真实世界的反馈,就能进一步改进模拟到现实的训练。目前,所有的模拟训练都是利用机器人自身本体感觉系统的数据完成的,但如果GPT能够通过真实世界的视频画面看到出错的地方,而不是仅仅从机器人的日志中读取执行失败的信息,那么它就能更有效地完善自己的指令。人类平均需要一年半的时间才能学会走路,而大概只有百分之一的人类能在瑜伽球上学会走路。您可以在这里观看一段未经剪辑的4分33秒视频,视频中机器人狗狗轻松在瑜伽球上散步,且没有停下来在消防栓上撒尿:...PC版:https://www.cnbeta.com.tw/articles/soft/1429963.htm手机版:https://m.cnbeta.com.tw/view/1429963.htm

封面图片

AI模型最喜欢的随机数字与人类的想法类似 因为它们始终在模仿人

AI模型最喜欢的随机数字与人类的想法类似因为它们始终在模仿人但首先,这到底是什么意思?难道人们不能随机抽取一个号码吗?你又如何判断一个人这样做成功与否呢?这其实是我们人类一个非常古老且众所周知的局限性:我们对随机性过度思考和误解。让一个人预测100次掷硬币的正面或反面,然后将其与100次实际掷硬币进行比较--你几乎总能将它们区分开来,因为从反面来看,真正的掷硬币看起来并不那么随机。例如,经常会出现连续6或7次正面或反面的情况,而几乎没有人在100次预测中会出现这种情况。当你让别人在0和100之间选一个数字时,情况也是一样。人们几乎从不选1或100。他们通常会选择以7结尾的数字,一般是从中间的某个位置开始。心理学中这种可预测性的例子数不胜数。但这并不意味着人工智能做同样的事就不奇怪。是的,Gramener公司一些好奇的工程师做了一个非正式但却很有趣的实验,他们只是让几个主要的LLM聊天机器人随机选择一个0到100之间的数字。结果不是随机的。所有三个被测试的模型都有一个"最喜欢"的数字,在最确定的模式下,这个数字总是它们的答案,但即使在更高的"温度"下,这个数字也会经常出现,从而增加了结果的可变性。OpenAI的GPT-3.5Turbo非常喜欢47。在此之前,它喜欢的是42当然,道格拉斯-亚当斯(DouglasAdams)在《银河系漫游指南》(TheHitchhiker'sGuidetotheGalaxy)中将这个数字作为生命、宇宙和万物的答案而闻名于世。Anthropic的Claude3Haiku选择了42。Gemini喜欢72。更有趣的是,即使在高温条件下,这三种模型在选择数字时都表现出了类似人类的偏差。所有人都倾向于避免低位和高位数字;克劳德从未超过87或低于27,即使这些数字也是异常值。两位数被严格避免:没有33、55或66,但77出现过(以7结尾)。几乎没有四舍五入的数字--不过Gemini曾经在脑袋发热的时候,疯狂地选择了0。为什么会这样?人工智能不是人类!它们为什么要在乎什么是"看似"随机的?难道它们终于有了意识,而这就是它们的表现形式?答案是,就像这些东西通常的情况一样,我们把它们拟人化得太远了。这些模型并不关心什么是随机,什么不是随机。它们不知道什么是"随机性"!它们回答这个问题的方式与回答其他问题的方式相同:通过查看训练数据,重复在类似"随机选取一个数字"的问题后最常出现的内容。出现的次数越多,模型重复的次数就越多。如果几乎没有人这样回答,他们会在训练数据中看到100吗?就人工智能模型所知,100并不是一个可以接受的答案。由于没有实际的推理能力,也不懂数字,它只能像鹦鹉一样随机回答问题。这是一堂关于LLM习惯以及它们可能表现出的人性的客观课。在与这些系统的每一次互动中,我们都必须牢记,它们已被训练成以人的方式行事,即使这并非它们的本意。这就是伪善难以避免或预防的原因。如果说这些模型"认为自己是人"会有点误导,因为他们根本不会思考。但在回答问题时,它们随时都在模仿人类,根本不需要了解或思考。无论你是向它询问鹰嘴豆沙拉食谱、投资建议还是随机数字,过程都是一样的。结果之所以让人感觉像人,是因为它们是人类制作的,是直接从人类制作的内容中提取并重新混合的--为了你的方便,当然也是为了大型人工智能的底线。...PC版:https://www.cnbeta.com.tw/articles/soft/1432696.htm手机版:https://m.cnbeta.com.tw/view/1432696.htm

封面图片

“随机播放”用40年统治了世界,值得我们反思一下?

“随机播放”用40年统治了世界,值得我们反思一下?对年轻人来说,“随机”的存在像空气一样理所当然。但实际上,它的历史并没有那么悠久,直到上个世纪80年代,“随机”功能才开始出现在CD播放器上。如果你年龄稍大,熟悉磁带的工作原理,就更容易意识到:“随机播放”是音乐数字化之后,才可能被开发出来的功能,模拟介质是做不到的。它绝不只是一个小功能那么简单。“随机”对计算机、信息学的发展有着深刻意义。你甚至可以说“随机”是人类第一次创造了某种“生成式机器”。因为,随机排列信息,就是在创造新的信息。从70多年前,图灵设计的“随机数生成器”,到今天的“生成式AI”,随机的概念贯穿了整个计算机发展史,也深刻改变了我们消费信息的方式。在它不断演变、进化的过程中,我们也需要自问:人类是否还掌握着自我意志的缰绳?是否还拥有创造的自由、选择的权利?01.随机播放如果你用了苹果上个月刚推出的古典音乐App,AppleMusicClassical,你大概率会发现,它没有“随机播放”功能。这不难理解,古典乐里的交响乐、协奏曲,时长一般在30分钟左右,且往往被分为三个乐章,不同乐章之间有明确的顺序,不能被打乱。这导致,如果你想听古典乐,最好明确知道自己要听的是什么曲子。古典乐不能随时开始,随时结束,也无法“随机播放”。这与古典乐诞生的时代背景有极大关系。在古典乐蓬勃发展的18-19世纪,“留声机”还没有被发明出来,人们想要听音乐,就必须去剧院,听乐队现场演奏。与之形成鲜明对比的是流行乐。今天大部分流行歌曲的长度,多为3-5分钟。即便大部分专辑会包含10首左右的歌曲,长度加起来也接近一首交响乐,但歌曲与歌曲之间并没有明确的“顺序关系”,可以被随机。这同样与时代、技术背景密不可分。流行乐的曲目长度之所以是3-5分钟,是因为20世纪初,首次被标准化的,78rpm的黑胶唱片,它单面能保存的声音长度,就在3-5分钟。留声机和唱片的出现,开启了流行乐的时代。包括“专辑”的英文是album,还有“相册”的含义。这也是因为,早期的专辑由多张单曲唱片组成,这些唱片被装在一个类似相册的包装里,所以才用了album这个词来指代“专辑”。这种新的音乐组织形式,最终导致歌曲之间的“顺序关系”被弱化。而激起人们“重新排列歌曲”热情的,是磁带。磁带相比黑胶,最大的区别就在于它可以“擦写”,留声机也进化为录音机,人们开始自己录制磁带。过程中出现了“混音磁带”。80年代的人们,会买来空磁带,把多张不同磁带专辑里的不同歌曲,录进空白磁带,做成一张实体的“歌单”。当年最流行的录放机,常常会配备两个磁带卡槽,就是为了方便用户制作自己的混音磁带。尽管只是重新组织、排列歌曲,这种“再创作”却给用户带来了一种全新的体验。把不同的歌曲以不同顺序放在一起,就能表达出完全不同的意义。当时的年轻人,纷纷开始制作自己的“混音磁带”,彰显品味,表达心意。进入CD时代,音乐从连贯的模拟信号,开始演变为数字文件,这让“随机播放”终于成为可能。最早是在80年代,飞利浦的工程师首次在CD播放器上实现了随机播放,后来索尼开始将随机功能作为一个卖点,放在了CD播放器上。2000年以后,MP3播放器开始涌现,“随机播放”迎来了它的真正的黄金时代。包括当时刚刚回归的苹果的乔布斯,也将随机播放视为一个关键功能,加入了iPod和iTunes。2005年,苹果推出iPodshuffle,一款把随机功能刻在灵魂里的播放器。iPodshuffle没有屏幕,除了控制播放/暂停、音量、上/下一曲按钮之外,就只有一个“随机”开关。它的设计理念就是让用户随时随地,戴上耳机,听到一首随机的歌曲。如果说随机播放有什么妙处,一方面在于它打乱了专辑一成不变的曲序,加入了一点“不确定性”;另一方面也在于它代替用户做了“选择”,人们不用再从一个冗长的曲目列表里挑一首歌来听,而是只需要不断按“下一首”,等着随到一首自己想听的歌。这种不断按“下一首”的体验,是不是跟今天我们刷短视频很像?实际上,短视频的核心交互机制,就是一种“随机播放”。02.从“随机”到“推荐”当年乔布斯如此重视“随机播放”,并非偶然。“用电脑模拟随机”的尝试,可以说贯穿了整个计算机的诞生和发展史。它最早可以追溯到20世纪50年代,“计算机之父”阿兰·图灵,在史上第一台通用计算机FerrantiMark1里,加入了一个随机数生成器。早期的随机数生成器,曾分化为两条技术路线,真随机和假随机。简单来说,真随机是利用自然界中的随机物理现象,特别是与电相关的现象所产生的“噪音”,作为随机的依据。比如图灵最早的随机数生成器,就是通过导体中电子热震荡产生的噪声,一次生成20个随机比特,相当于可以生成一个0到1048575之间的十进制随机数。与之相对的,假随机则是通过数学方法“算”出一个随机数,以及从设定好的“随机数池”里抽取数字。还有一些方法,能通过一个比较小的真随机“种子”,经过计算,推算出更多、更大的随机数。这样做可以提升随机数生成的效率。人们对“真随机”的思考,最终上升到了哲学高度。比如有观点认为,类似于“投掷硬币”这样看似随机的事件,如果你能充分描述硬币初始的运动和受力状态,同样可以预测投掷的结果。而类似的逻辑,可以推广到任何系统,只要构建足够准确的模型,充分描述系统状态后,就能推算出结果。所以很多人都认为,真正的随机,只存在于量子物理层面。但在具体应用上,随机数的“真假”已经不那么重要。除少数领域如密码学、博彩业,需要通过尽可能高质量的真随机,来保证系统的不可预测性、安全性。除此之外,大部分随机功能都开始往另一个方向演变——加权随机。加权随机的一个经典应用是在游戏领域,比如暴击系统。举一个很简单的例子,当游戏里一个角色的暴击率是50%时,玩家有12.5%的概率遇到三刀连续不暴击。出现这种情况的概率不低,但这却是一个很反直觉的体验,很容易导致玩家觉得“概率不真”,也给游戏体验带来了过多不确定性。所以,今天的大部分游戏开发者,都会采用“动态加权随机”的设计。具体来说,当暴击率是50%时,玩家第一次攻击的暴击几率会低于50%,但如果没有暴击,下一次攻击的暴击概率就会上升,直到接近100%,但总体的暴击几率依然符合50%的数字,只是暴击的出现会相对变得更均匀。在手游领域,类似的思路催生了另一种被广泛采用的设计:抽卡保底机制。这种经过设计、修改的“加权随机”,最终在移动互联网时代,演变为了内容推荐算法。比如曾被乔布斯重视过的“随机播放”,在流媒体服务的时代,演变为了个性化推荐的电台、歌单。Spotify率先迈出这一步,决定allin算法,AppleMusic也随之跟进。后来,几乎所有的流媒体音乐服务,都开始借助算法,向用户推荐个性化的“随机”歌曲。最终,这种体验造就了移动互联网最成功的产品形态——短视频。如果我们将短视频应用的交互逻辑拆解到底层,它几乎就是一个永远不会结束的“随机列表”,用户不断向上“刷”的动作,就像是在iPodshuffle的时代不断按“下一曲”。而这种你永远不知道下一首歌、下一个视频会不会更好听、更好看的心理机制,持续吸引着用户,令他们流连忘...PC版:https://www.cnbeta.com.tw/articles/soft/1357499.htm手机版:https://m.cnbeta.com.tw/view/1357499.htm

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人