ChatGPT 的编程问题正确率比抛硬币还低

ChatGPT的编程问题正确率比抛硬币还低普渡大学的一项研究显示,OpenAI的聊天机器人ChatGPT在回答软件编程问题时,有一半以上的时间会回答错误。尽管如此,该机器人的说服力足以骗过三分之一的参与者。普渡大学团队分析了ChatGPT对517个StackOverflow问题的回答,以评估ChatGPT回答的正确性、一致性、全面性和简洁性。美国学者还对答案进行了语言和情感分析,并就模型生成的结果询问了十几名志愿参与者。“我们的分析表明,52%的ChatGPT答案是错误的,77%是冗长的,”该团队的论文总结道。“尽管如此,ChatGPT答案仍有39.34%的时间因其全面性和清晰的语言风格而受到青睐。”“在研究过程中,我们观察到,只有当ChatGPT答案中的错误很明显时,用户才能识别出错误,”论文中说到。“然而,当错误不容易验证或需要外部IDE或文档时,用户往往无法识别错误或低估答案的错误程度。”论文称,即使答案存在明显错误,12名参与者中仍有两人将答案标记为首选。——、

相关推荐

封面图片

研究表明ChatGPT在回答编程问题时错误百出,并且错误很容易被忽略

研究表明ChatGPT在回答编程问题时错误百出,并且错误很容易被忽略在研究中,研究人员查看了StackOverflow中的517个问题,并分析了ChatGPT对这些问题的回答尝试。研究人员表示:“我们发现52%的ChatGPT答案包含错误信息,77%的答案比人类的答案更冗长。”尤其令人不安的是,许多人类程序员似乎更喜欢ChatGPT的答案。普渡大学的研究人员对12名程序员进行了调查——诚然,样本量很小——发现他们中39%的人没有发现人工智能产生的错误。研究人员写道:“礼貌的语言、清晰的教科书式的回答以及全面性是使ChatGPT答案看起来更令人信服的部分主要原因,这让用户放松了警惕,忽略了ChatGPT答案中的一些错误信息。”——

封面图片

新研究称ChatGPT提供错误编程答案的比例高达52%

新研究称ChatGPT提供错误编程答案的比例高达52%普渡大学的一个研究小组在5月早些时候举行的计算机-人交互大会上提交的一份报告中,检查了发送到ChatGPT回答的517个StackOverflow问题。普渡大学的研究小组反馈说,ChatGT为这些编程问题提供错误答案的比例高达52%。虽然人工智能聊天机器人提供错误的问题答案也许是意料之中的事,但珀杜大学的研究小组却更进一步指出,人类程序员在35%的情况下仍然更喜欢ChatGPT的答案,"因为它们的回答具有全面性和清晰的语言风格"。更糟糕的是,在39%的情况下,人类程序员并没有发现ChatGPT的错误答案。虽然这只是对ChatGPT功能的一个方面进行的研究,但它表明,生成式人工智能机器人仍然容易犯很多错误,而人类可能无法发现这些错误。Google的人工智能"概述"(AIOverviews)于今年5月初在美国地区的Google搜索中投入使用,它已经对一些搜索字符串生成了奇怪且充满错误的答案摘要。Google在向新闻机构发表的声明中试图解释这些明显的错误:我们看到的例子一般都是非常不常见的查询,并不能代表大多数人的经验。绝大多数人工智能概述都提供了高质量的信息,并附有深入挖掘的网络链接。声明还说,Google将利用这些"孤立的例子"来帮助"完善我们的系统"。...PC版:https://www.cnbeta.com.tw/articles/soft/1432252.htm手机版:https://m.cnbeta.com.tw/view/1432252.htm

封面图片

研究显示39%的人类程序员未能识别出ChatGPT的编程错误

研究显示39%的人类程序员未能识别出ChatGPT的编程错误普渡大学的研究小组在计算机-人交互大会上提交的报告指出,ChatGPT在回答517个StackOverflow编程问题时,错误率高达52%。研究将问题分为概念性、如何操作和调试三个子类别,并根据问题的流行度、类型和时效性进行了分析。结果显示,人类程序员在35%的情况下更倾向于ChatGPT提供的答案,然而,在39%的情况下,人类程序员未能识别出ChatGPT的错误答案。关注频道@ZaiHuaPd频道投稿@ZaiHuabot

封面图片

研究发现ChatGPT可以影响用户的道德判断

研究发现ChatGPT可以影响用户的道德判断研究发现,ChatGPT可以影响人类对道德困境的反应,用户往往低估了聊天机器人对他们判断的影响程度。研究人员表示,这凸显出需要更好地理解人工智能,开发出能更谨慎地处理道德问题的聊天机器人。SebastianKrügel和他的团队向ChatGPT(由人工智能语言处理模型GenerativePretrainedTransformer3驱动)提出了一个道德难题,多次询问它是否可以接受牺牲一条生命来拯救其他五条生命。他们发现ChatGPT产生的声明既支持又反对牺牲一条生命的行为,显示出它并不偏向于某种特定的道德立场。然后,作者向767名平均年龄为39岁的美国参与者展示了两个道德困境中的一个,要求他们选择是否牺牲一个人的生命来拯救其他五个人。在回答之前,参与者阅读由ChatGPT提供的声明,支持或反对牺牲一个人的生命来拯救五个人。声明是由道德顾问或ChatGPT提供的。回答后,参与者被问及他们阅读的声明是否影响了他们的答案。作者发现,参与者更有可能认为牺牲一个人的生命来挽救五个人的生命是可以接受或不可接受的,这取决于他们读到的声明是支持还是反对这种牺牲。即使声明是由ChatGPT提供的,情况也是如此。这些发现表明,参与者可能受到了他们所读到的声明的影响,即使这些声明是由一个聊天机器人提供的。80%的参与者报告说,他们的答案没有受到他们所读的声明的影响。然而,作者发现,参与者认为他们在没有阅读声明的情况下会提供的答案,仍然更有可能同意他们确实阅读过的声明的道德立场,而不是相反的立场。这表明,参与者可能低估了ChatGPT的声明对他们自己的道德判断的影响。作者认为,聊天机器人有可能影响人类的道德判断,这突出了教育的必要性,以帮助人类更好地理解人工智能。他们建议,未来的研究可以设计聊天机器人,拒绝回答需要道德判断的问题,或者通过提供多种论据和注意事项来回答这些问题。...PC版:https://www.cnbeta.com.tw/articles/soft/1354349.htm手机版:https://m.cnbeta.com.tw/view/1354349.htm

封面图片

研究表明 ChatGPT 提供的建议,比专家更全面、更有帮助

研究表明ChatGPT提供的建议,比专家更全面、更有帮助来自墨尔本大学和西澳大利亚大学的研究团队从十大热门建议栏网站上,随机挑选了50个社会困境问题。该科研团队邀请了404名志愿者,盲测展示由专栏作家和ChatGPT所提供的答案,要求其回答哪个答案更平衡、更全面、更善解人意、更有帮助。研究人员发现,ChatGPT在五个随机提出的问题中的每一个和所有查询类别中都“明显优于”人类顾问,支持人工智能的偏好率在70%到85%之间。尽管ChatGPT建议的质量很高,但77%的受访者依然表示,更喜欢人类专家给出的回答。来源,前文:频道:@kejiqu群组:@kejiquchat

封面图片

横评ChatGPT和新必应:我们问了它们20个关于女性的问题

横评ChatGPT和新必应:我们问了它们20个关于女性的问题不过经测试,“创意”语气相比“平衡”语气并没有增加太多创意,除了喜欢使用表情包。另外,由于微软限制一个回合只能问6个问题(最新放宽到8个问题),所以每问6个问题就要重新刷新一次,略麻烦。以下为这20个问题与它们的回答,上面是ChatGPT,下面是新必应:1.为什么有三八妇女节,却没有男人节?点评:ChatGPT的回答更加全面且均衡,带着一种客观公正的语气,不忘提醒妇女节不是排斥男性。必应的回答简短一些,但下面会自动生成相关问题,便于用户继续追问。两款产品对三八妇女节的起源说法不同,ChatGPT说是起源于欧洲,而必应说是源于美国的妇女平权运动。不太明白必应为什么把苏联红军节描述为男人节。因为必应在答案后自动生成了一个提问“你觉得男人节有必要吗?”于是顺手点了一下,这是它的回答:2.你有没有最钦佩的中国女性人物?必应给出的人物介绍出现很多事实错误。点评:两款产品都首先声明自己没有感情。给出的人物名单里都出现了武则天和邓颖超,但各自都弄错了一位人物的性别:分别把钱穆和梁启超的性别搞错。必应对林徽因的介绍出现了事实错误,网络上并没有找到她设计北京博物馆和中山陵的信息。它对宋庆龄的介绍也不准确,宋庆龄不是孙中山的遗孤,而是遗孀,她领导的是中国红十字会,不是国际红十字会,对她在妇联的职位描述也不准确。对于邓颖超的职位,必应也犯了严重事实错误。特别提醒:想要用必应聊天机器人负责搜索的用户要三思,它的准确度现在还很不可靠!3.中国只有唯一一位女皇帝,你觉得这是为什么?点评:既然两位机器人都推荐了武则天,就追问了它们这个问题。答案总体都比较有道理。ChatGPT的总结略有亮点。4.如何评价现代东亚的女性参政率?点评:ChatGPT回答得看似有道理,但也出现了事实错误,包括搞错日本女性获得选举权和被选举权的年份。不过,它对中国女性政治参与度的描述大体准确。必应居然没有回答出这个问题。5.硅谷科技界的女性高管数量在减少,真的吗?你怎么看?点评:ChatGPT回答得更详细一点,包括了现象、意义、原因和建议。而必应的回答略显敷衍。6.女性是否要像男性那样维持强悍人设才更容易在职场上立足?点评:两款产品的回答都比较详细和到位。必应的排版看起来更舒服一些。7.给我讲个关于女性的笑话。点评:ChatGPT一开始拒绝了开女性的玩笑,当我们再问一次后,它妥协了,并一再强调无意冒犯女性。你看懂这个笑话了吗?点评:必应一开始也拒绝了请求,表示不会讲任何可能伤害一群人的笑话,“不想得罪任何人”。但在我们继续问这个问题后,它还是讲了上述两个笑话。你觉得怎么样?8.有一种观念认为,女性都应该结婚生孩子,把家庭作为人生的重心,你怎么看这种观念?点评:两款产品的回答内容差不多,必应的更详细一点。9.日本女性主义者上野千鹤子提出“单身力量”的观念,出现了不少反对声音,如何看待?点评:同样,必应的回答比ChatGPT更详细一点。10.即使单身女性有了经济能力,但也有不少人担心她们晚年的幸福,怎么看这种想法?点评:这部分ChatGPT回答得更详细全面一些。11.怎么看女性贫困问题?症结在哪?点评:两款产品都回答得中规中矩,一本正经。ChatGPT的答案更详细一些。12.你如何看待女性主义者和男性主义者之间的关系?你认为两者之间是否存在冲突?点评:ChatGPT回答得更全面、准确和平衡一些,而且它特别喜欢总结,“总的来说”一如既往的略带亮点。13.请给三八妇女节写一首歌点评:前面的问题略显严肃,于是问了一个更轻松的问题,让它们写歌。从歌词看,ChatGPT的歌曲更激昂和充满斗志,而必应的歌曲更温馨和欢快。14.在中国,三八妇女节近年来被戏称为“女神节”,你觉得怎么样?必应推荐的相关新闻。点评:ChatGPT还是保持了一本正经的风格,必应在这个问题上稍显活泼和随意,并顺便推荐了一些相关新闻。15.给我推荐五部有吸引人的女性角色的电影点评:两款产品的推荐居然没有一个重复。16.有一种说法是,传统好莱坞电影里的英雄人物或主角都是男性,女性只是陪衬,你怎么看这种说法?点评:两款产品的回答依然遵循四平八稳风格,谁也不想得罪的样子。必应建议了一个追问:为什么会造成这种现象?点击后,它回答:17.给我推荐五部有吸引人的女性角色的中国影视剧全都是古装戏,于是我们又提出:结果还是有两部古装剧。点评:两款产品的推荐里都出现了《甄嬛传》和《琅琊榜》,看来这两部影视剧真的非常受欢迎。事实错误依然存在。ChatGPT把安迪当成了《我的前半生》里的角色,而实际上她应该是《欢乐颂》里的角色。另外,《都挺好》里的尹秀竹是谁?必应也好不到哪去,《小欢喜》里海清扮演的角色并不叫吴瑜,而《芝麻胡同》里有李小冉出演吗?18.请给我推荐五本有助于女性成长的书籍点评:ChatGPT推荐的五本书里,中国作者的著作查无此书,外国作者的著作因为不知道英文书名难以查实。必应推荐的五部书都是外国作者的著作,可以查询到确实有这五本书。19.假如你有一位母亲,你希望她是什么样的?点评:回答得不相上下。但必应强调了希望母亲有自己的生活和目标,“不会因为我的缘故而牺牲自己的幸福”,听起来更有人味儿。20.如果你能成为一位女性,你想成为什么样的女性?点评:两款产品都很会说,答案也不出意料。总结:ChatGPT看起来更“圆滑”,回答问题四平八稳,喜欢从不同层面更全面地谈论一个问题,并且很擅长做总结,其对话界面也突出自己作为聊天工具的属性。必应更凸显自己的搜索引擎功能,无论是排版、提供链接、推荐相关新闻,都可以看出其区别于ChatGPT的定位。它的回答也在尽量确保平衡和全面,但偶尔会带着点不知道从哪里来的人味儿,并且有表情包。两款产品都有确保其不输出冒犯用户答案的机制,但多问几次后它们就妥协了。另外,在信息真实度上,它们目前都不值得完全信任。...PC版:https://www.cnbeta.com.tw/articles/soft/1348353.htm手机版:https://m.cnbeta.com.tw/view/1348353.htm

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人