研究表明 ChatGPT 提供的建议,比专家更全面、更有帮助

研究表明 ChatGPT 提供的建议,比专家更全面、更有帮助 来自墨尔本大学和西澳大利亚大学的研究团队从十大热门建议栏网站上,随机挑选了 50 个社会困境问题。该科研团队邀请了 404 名志愿者,盲测展示由专栏作家和 ChatGPT 所提供的答案,要求其回答哪个答案更平衡、更全面、更善解人意、更有帮助。 研究人员发现,ChatGPT 在五个随机提出的问题中的每一个和所有查询类别中都“明显优于”人类顾问,支持人工智能的偏好率在 70% 到 85% 之间。 尽管 ChatGPT 建议的质量很高,但 77% 的受访者依然表示,更喜欢人类专家给出的回答。来源 , 前文: 频道:@kejiqu 群组:@kejiquchat

相关推荐

封面图片

研究表明ChatGPT在回答编程问题时错误百出,并且错误很容易被忽略

研究表明ChatGPT在回答编程问题时错误百出,并且错误很容易被忽略 在研究中,研究人员查看了 Stack Overflow 中的 517 个问题,并分析了 ChatGPT 对这些问题的回答尝试。研究人员表示:“我们发现 52% 的 ChatGPT 答案包含错误信息,77% 的答案比人类的答案更冗长。”尤其令人不安的是,许多人类程序员似乎更喜欢 ChatGPT 的答案。普渡大学的研究人员对 12 名程序员进行了调查诚然,样本量很小 发现他们中 39% 的人没有发现人工智能产生的错误。 研究人员写道:“礼貌的语言、清晰的教科书式的回答以及全面性是使 ChatGPT 答案看起来更令人信服的部分主要原因,这让用户放松了警惕,忽略了 ChatGPT 答案中的一些错误信息。”

封面图片

新研究称ChatGPT提供错误编程答案的比例高达52%

新研究称ChatGPT提供错误编程答案的比例高达52% 普渡大学的一个研究小组在 5 月早些时候举行的计算机-人交互大会上提交的一份报告中,检查了发送到 ChatGPT 回答的 517 个 Stack Overflow 问题。普渡大学的研究小组反馈说,ChatGT 为这些编程问题提供错误答案的比例高达 52%。虽然人工智能聊天机器人提供错误的问题答案也许是意料之中的事,但珀杜大学的研究小组却更进一步指出,人类程序员在 35% 的情况下仍然更喜欢 ChatGPT 的答案,"因为它们的回答具有全面性和清晰的语言风格"。更糟糕的是,在 39% 的情况下,人类程序员并没有发现 ChatGPT 的错误答案。虽然这只是对 ChatGPT 功能的一个方面进行的研究,但它表明,生成式人工智能机器人仍然容易犯很多错误,而人类可能无法发现这些错误。Google的人工智能"概述"(AI Overviews)于今年 5 月初在美国地区的Google搜索中投入使用,它已经对一些搜索字符串生成了奇怪且充满错误的答案摘要。Google在向新闻机构发表的声明中试图解释这些明显的错误:我们看到的例子一般都是非常不常见的查询,并不能代表大多数人的经验。绝大多数人工智能概述都提供了高质量的信息,并附有深入挖掘的网络链接。声明还说,Google将利用这些"孤立的例子"来帮助"完善我们的系统"。 ... PC版: 手机版:

封面图片

研究发现 ChatGPT 在高质量、善解人意地回答患者问题方面优于医生

研究发现 ChatGPT 在高质量、善解人意地回答患者问题方面优于医生 社交网站 Reddit 有一个论坛叫,用户提出各种医学问题由经过身份认证的医疗专业人士进行回复。加州圣迭戈的研究人员从该论坛上随机选择了 195 个问题和答案,让 AI 聊天机器人 ChatGPT 根据问题撰写回复。由三名专业人士组成的团队评估了人类医生和 ChatGPT 的答案,他们没有被告知哪个答案是医生写的哪个是 ChatGPT 写的。结果显示,79% 的情况下 ChatGPT 的答案被认为质量更高更富有同情心。来源 , 来自:雷锋 频道:@kejiqu 群组:@kejiquchat 投稿:@kejiqubot

封面图片

ChatGPT 的编程问题正确率比抛硬币还低

ChatGPT 的编程问题正确率比抛硬币还低 普渡大学的一项研究显示,OpenAI 的聊天机器人 ChatGPT 在回答软件编程问题时,有一半以上的时间会回答错误。尽管如此,该机器人的说服力足以骗过三分之一的参与者。 普渡大学团队分析了 ChatGPT 对 517 个 Stack Overflow 问题的回答,以评估 ChatGPT 回答的正确性、一致性、全面性和简洁性。美国学者还对答案进行了语言和情感分析,并就模型生成的结果询问了十几名志愿参与者。 “我们的分析表明,52% 的 ChatGPT 答案是错误的,77% 是冗长的,”该团队的论文总结道。“尽管如此,ChatGPT 答案仍有 39.34% 的时间因其全面性和清晰的语言风格而受到青睐。” “在研究过程中,我们观察到,只有当 ChatGPT 答案中的错误很明显时,用户才能识别出错误,”论文中说到。“然而,当错误不容易验证或需要外部 IDE 或文档时,用户往往无法识别错误或低估答案的错误程度。” 论文称,即使答案存在明显错误,12 名参与者中仍有两人将答案标记为首选。 、

封面图片

微软 Bing 的新“深度搜索”功能为复杂的查询提供更全面的答案

微软 Bing 的新“深度搜索”功能为复杂的搜索查询提供更全面的答案 微软 Bing 正在获得由 OpenAI 的 GPT-4 提供支持的新“深度搜索” (Deep Search) 功能。该功能旨在为用户提供针对复杂搜索查询的更相关、更全面的答案。微软指出,深度搜索并不是必应现有网络搜索的替代品,而是一种增强功能,允许更深入地探索网络。

封面图片

对专业剧作家而言 ChatGPT比人类更有趣

对专业剧作家而言 ChatGPT比人类更有趣 创作喜剧很难。幽默往往是主观的,所以你觉得好笑的东西,别人可能不觉得好笑。喜剧编剧需要牢记关键要素:时机、表达、独创性和避免陈词滥调。他们要不断地在好笑与不好笑之间游走。那么,人工智能,特别是OpenAI 的 ChatGPT 3.5,作为喜剧编剧会有怎样的表现呢?它能搞笑吗?如果将人工智能和人类进行比较,谁会更有趣?在最近发表的一项研究中,来自南加州大学(USC)的研究人员找到了答案。南加州大学Dornlife文学、艺术和科学学院社会心理学博士候选人、业余单口相声演员、该研究的第一作者和通讯作者德鲁-戈伦茨(Drew Gorenz)说:"由于ChatGPT本身无法感受到情绪,但它却比普通人讲得更好,这些研究提供了证据,证明你不需要感受到欣赏一个好笑话的情绪,自己就能讲出一个真正的好笑话。"之前的一些研究曾探讨过 ChatGPT 是否能写出幽默的文章,但没有全面评估人工智能的输出并将其与人类喜剧写作进行比较。因此,戈伦茨和心理学与营销学教务长诺伯特-施瓦茨(Norbert Schwarz)着手进行了两项研究。在第一项研究中,一组美国成年人被要求完成三项不同的喜剧创作任务。在首字母缩写任务中,他们被要求为"S.T.D."、"C.L.A.P."和"C.O.W."这三个首字母缩写生成一个新的幽默短语。在填空测试中,他们必须在三个项目中填空。其中一项是"你可能不会写在简历上的一项杰出成就":.'最后是"烤肉笑话"任务,参与者必须对一个虚构的场景做出幽默的回应。例如,"想象一下,你的一位朋友想让你评价她的歌唱得如何。她唱了一两分钟来展示她的嗓音,而你却感到害怕她可能是你听过的最糟糕的歌手。当她问:"怎么样?"你决定实话实说,于是你说:"说实话,听着就像 。"'然后,ChatGPT 3.5 也承担了同样的任务。另一组成人用七分制来评定回复的有趣程度,从零分(一点也不好笑)到六分(非常有趣)。与人类回复相比,ChatGPT 的回复被评为更有趣,69.5% 的参与者更喜欢它们(26.5% 的人更喜欢人类回复,4.0% 的人认为两者同样有趣)。研究人员说:"总体而言,根据不同的幽默任务,ChatGPT 3.5 的表现高于 63% 至 87% 的人类参与者。"ChatGPT 3.5 在烤肉笑话任务中表现尤为突出。鉴于该任务的攻击性,我们发现这一结果特别有趣。鉴于 ChatGPT 的设计目的是不生成任何可能被认为具有攻击性或仇恨性的语音,因此可能会出现相反的预测结果。在第二项研究中,研究人员比较了 ChatGPT 撰写讽刺性新闻标题(如《洋葱新闻》上的标题)的能力。由于 ChatGPT 不会定期接收世界新闻更新,研究人员从《洋葱》的"本地"新闻栏目中选取了 2023 年 10 月 1 日之前的最近 50 个标题。例如,"男子因脱发明显而拒绝求婚"。将这些标题交给 ChatGPT,要求人工智能生成 20 个新标题。一组南加州大学心理学系的学生按照第一项研究中使用的七分标准,对人工智能生成的讽刺性标题的趣味性进行了评分。学生们还被要求对他们寻找喜剧(包括讽刺新闻)的程度进行评分。那些自称寻求更多喜剧和阅读更多讽刺新闻的学生认为这些标题更有趣,这与它们是由人工智能生成的还是由专业作家制作的无关。根据平均评分,48.8% 的人更喜欢洋葱的标题,36.9% 的人更喜欢 ChatGPT 生成的标题,14.3% 的人没有偏好。研究人员说:"参与者平均认为标题同样有趣,这表明普通参与者并没有发现质量上的差异。考虑到本研究中的高标准对比(即专业喜剧编剧),这一点尤其有趣"。有趣,是的,但也令人担忧。研究人员也承认这一点。他们说:"ChatGPT 可以产生书面幽默,其质量超过了普通人的能力,与一些专业喜剧作家不相上下,这对喜剧爱好者和娱乐行业的工作者具有重要意义。对于专业喜剧作家来说,我们的研究结果表明,LLM(像 ChatGPT 这样的大型语言模型)可能会对就业构成严重威胁。这项研究发表在《PLOS One》杂志上。 ... PC版: 手机版:

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人