ChatGPT 的编程问题正确率比抛硬币还低

ChatGPT 的编程问题正确率比抛硬币还低 普渡大学的一项研究显示,OpenAI 的聊天机器人 ChatGPT 在回答软件编程问题时,有一半以上的时间会回答错误。尽管如此,该机器人的说服力足以骗过三分之一的参与者。 普渡大学团队分析了 ChatGPT 对 517 个 Stack Overflow 问题的回答,以评估 ChatGPT 回答的正确性、一致性、全面性和简洁性。美国学者还对答案进行了语言和情感分析,并就模型生成的结果询问了十几名志愿参与者。 “我们的分析表明,52% 的 ChatGPT 答案是错误的,77% 是冗长的,”该团队的论文总结道。“尽管如此,ChatGPT 答案仍有 39.34% 的时间因其全面性和清晰的语言风格而受到青睐。” “在研究过程中,我们观察到,只有当 ChatGPT 答案中的错误很明显时,用户才能识别出错误,”论文中说到。“然而,当错误不容易验证或需要外部 IDE 或文档时,用户往往无法识别错误或低估答案的错误程度。” 论文称,即使答案存在明显错误,12 名参与者中仍有两人将答案标记为首选。 、

相关推荐

封面图片

研究发现:ChatGPT 回答编程问题的错误率超过 50%

研究发现:ChatGPT 回答编程问题的错误率超过 50% 美国普渡大学的研究发现,OpenAI 开发的人工智能聊天机器人 ChatGPT 在回答软件编程问题时,错误率超过一半,且能骗过三分之一的提问者。 该研究团队分析了 ChatGPT 对 517 个 Stack Overflow 网站上的问题的回答,评估了其正确性、一致性、全面性和简洁性。他们还对回答进行了语言和情感分析,并对 12 名志愿参与者进行了问卷调查。研究报告的结论是:ChatGPT 的回答虽然语言风格良好,但 52% 的回答是错误的,77% 是冗长的。参与者只有在回答中的错误很明显时,才能识别出来。否则,他们会被 ChatGPT 的友好、权威和细致的语言风格所误导。 OpenAI 在其 ChatGPT 网站上承认其软件“可能会产生关于人、地点或事实的不准确信息。” 来源 , 频道:@kejiqu 群组:@kejiquchat 投稿:@kejiqubot

封面图片

研究表明ChatGPT在回答编程问题时错误百出,并且错误很容易被忽略

研究表明ChatGPT在回答编程问题时错误百出,并且错误很容易被忽略 在研究中,研究人员查看了 Stack Overflow 中的 517 个问题,并分析了 ChatGPT 对这些问题的回答尝试。研究人员表示:“我们发现 52% 的 ChatGPT 答案包含错误信息,77% 的答案比人类的答案更冗长。”尤其令人不安的是,许多人类程序员似乎更喜欢 ChatGPT 的答案。普渡大学的研究人员对 12 名程序员进行了调查诚然,样本量很小 发现他们中 39% 的人没有发现人工智能产生的错误。 研究人员写道:“礼貌的语言、清晰的教科书式的回答以及全面性是使 ChatGPT 答案看起来更令人信服的部分主要原因,这让用户放松了警惕,忽略了 ChatGPT 答案中的一些错误信息。”

封面图片

新研究称ChatGPT提供错误编程答案的比例高达52%

新研究称ChatGPT提供错误编程答案的比例高达52% 普渡大学的一个研究小组在 5 月早些时候举行的计算机-人交互大会上提交的一份报告中,检查了发送到 ChatGPT 回答的 517 个 Stack Overflow 问题。普渡大学的研究小组反馈说,ChatGT 为这些编程问题提供错误答案的比例高达 52%。虽然人工智能聊天机器人提供错误的问题答案也许是意料之中的事,但珀杜大学的研究小组却更进一步指出,人类程序员在 35% 的情况下仍然更喜欢 ChatGPT 的答案,"因为它们的回答具有全面性和清晰的语言风格"。更糟糕的是,在 39% 的情况下,人类程序员并没有发现 ChatGPT 的错误答案。虽然这只是对 ChatGPT 功能的一个方面进行的研究,但它表明,生成式人工智能机器人仍然容易犯很多错误,而人类可能无法发现这些错误。Google的人工智能"概述"(AI Overviews)于今年 5 月初在美国地区的Google搜索中投入使用,它已经对一些搜索字符串生成了奇怪且充满错误的答案摘要。Google在向新闻机构发表的声明中试图解释这些明显的错误:我们看到的例子一般都是非常不常见的查询,并不能代表大多数人的经验。绝大多数人工智能概述都提供了高质量的信息,并附有深入挖掘的网络链接。声明还说,Google将利用这些"孤立的例子"来帮助"完善我们的系统"。 ... PC版: 手机版:

封面图片

研究表明 ChatGPT 提供的建议,比专家更全面、更有帮助

研究表明 ChatGPT 提供的建议,比专家更全面、更有帮助 来自墨尔本大学和西澳大利亚大学的研究团队从十大热门建议栏网站上,随机挑选了 50 个社会困境问题。该科研团队邀请了 404 名志愿者,盲测展示由专栏作家和 ChatGPT 所提供的答案,要求其回答哪个答案更平衡、更全面、更善解人意、更有帮助。 研究人员发现,ChatGPT 在五个随机提出的问题中的每一个和所有查询类别中都“明显优于”人类顾问,支持人工智能的偏好率在 70% 到 85% 之间。 尽管 ChatGPT 建议的质量很高,但 77% 的受访者依然表示,更喜欢人类专家给出的回答。来源 , 前文: 频道:@kejiqu 群组:@kejiquchat

封面图片

【Ripple CTO:ChatGPT 的答案只是看起来正确】

【Ripple CTO:ChatGPT 的答案只是看起来正确】 Ripple首席技术官David Schwartz在社交媒体上发文称,人工智能驱动的聊天机器人ChatGPT和生成式AI程序背后的类似大型语言模型 (LLM) 提供了不真实的答案,这些答案只是看起来正确,他认为ChatGPT的工作是为用户提供看起来与此类问题通常获得的输出尽可能相似的输出。在与现实世界中的实际事物相对应的意义上,是否真的“真实”根本不是一个考虑因素。此前著名律师史蒂夫弗拉德克 (Steve Vladeck) 分享了ChatGPT生成伪造法庭案件文件的例子并建议永远不要使用ChatGPT或类似工具进行法律研究。

封面图片

ChatGPT 通过了 Google 18.3 万美元年薪 3 级工程师的编程面试考验

ChatGPT 通过了 Google 18.3 万美元年薪 3 级工程师的编程面试考验 根据一份内部文件,Google 向 ChatGPT 输入了其编程面试问题,然而根据其回答,聘请它为 L3 级工程师,这是一个入门级工程师职位但薪水并不低。ChatGPT 是否会取代软件工程师或至少是初级的工程师?ChatGPT 自己给出的答案是不会,声明自己是一个能帮助完成部分任务的工具,不能完全取代一位具有创造力、问题解决能力和批判性思维的人类软件工程师。它也需要人类的监督和指导才能有效运作。那么 20 年后呢?ChatGPT 承认也许那时候会影响初级职位,但重申不会完全取代人类软件工程师。ChatGPT 回答问题能力已经让搜索巨人倍感警惕,它正在加快测试基于 LaMDA 的 AI 聊天机器人。 来源, 来自:雷锋 频道:@kejiqu 群组:@kejiquchat 投稿:@kejiqubot

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人