新研究称ChatGPT提供错误编程答案的比例高达52%

新研究称ChatGPT提供错误编程答案的比例高达52% 普渡大学的一个研究小组在 5 月早些时候举行的计算机-人交互大会上提交的一份报告中，检查了发送到 ChatGPT 回答的 517 个 Stack Overflow 问题。普渡大学的研究小组反馈说，ChatGT 为这些编程问题提供错误答案的比例高达 52%。虽然人工智能聊天机器人提供错误的问题答案也许是意料之中的事，但珀杜大学的研究小组却更进一步指出，人类程序员在 35% 的情况下仍然更喜欢 ChatGPT 的答案，"因为它们的回答具有全面性和清晰的语言风格"。更糟糕的是，在 39% 的情况下，人类程序员并没有发现 ChatGPT 的错误答案。虽然这只是对 ChatGPT 功能的一个方面进行的研究，但它表明，生成式人工智能机器人仍然容易犯很多错误，而人类可能无法发现这些错误。Google的人工智能"概述"（AI Overviews）于今年 5 月初在美国地区的Google搜索中投入使用，它已经对一些搜索字符串生成了奇怪且充满错误的答案摘要。Google在向新闻机构发表的声明中试图解释这些明显的错误：我们看到的例子一般都是非常不常见的查询，并不能代表大多数人的经验。绝大多数人工智能概述都提供了高质量的信息，并附有深入挖掘的网络链接。声明还说，Google将利用这些"孤立的例子"来帮助"完善我们的系统"。 ... PC版：手机版：

在Telegram中查看

相关推荐

研究表明ChatGPT在回答编程问题时错误百出，并且错误很容易被忽略

研究表明ChatGPT在回答编程问题时错误百出，并且错误很容易被忽略在研究中，研究人员查看了 Stack Overflow 中的 517 个问题，并分析了 ChatGPT 对这些问题的回答尝试。研究人员表示：“我们发现 52% 的 ChatGPT 答案包含错误信息，77% 的答案比人类的答案更冗长。”尤其令人不安的是，许多人类程序员似乎更喜欢 ChatGPT 的答案。普渡大学的研究人员对 12 名程序员进行了调查诚然，样本量很小发现他们中 39% 的人没有发现人工智能产生的错误。研究人员写道：“礼貌的语言、清晰的教科书式的回答以及全面性是使 ChatGPT 答案看起来更令人信服的部分主要原因，这让用户放松了警惕，忽略了 ChatGPT 答案中的一些错误信息。”

研究发现：ChatGPT 回答编程问题的错误率超过 50%

研究发现：ChatGPT 回答编程问题的错误率超过 50% 美国普渡大学的研究发现，OpenAI 开发的人工智能聊天机器人 ChatGPT 在回答软件编程问题时，错误率超过一半，且能骗过三分之一的提问者。该研究团队分析了 ChatGPT 对 517 个 Stack Overflow 网站上的问题的回答，评估了其正确性、一致性、全面性和简洁性。他们还对回答进行了语言和情感分析，并对 12 名志愿参与者进行了问卷调查。研究报告的结论是：ChatGPT 的回答虽然语言风格良好，但 52% 的回答是错误的，77% 是冗长的。参与者只有在回答中的错误很明显时，才能识别出来。否则，他们会被 ChatGPT 的友好、权威和细致的语言风格所误导。 OpenAI 在其 ChatGPT 网站上承认其软件“可能会产生关于人、地点或事实的不准确信息。” 来源，频道：@kejiqu 群组：@kejiquchat 投稿：@kejiqubot

ChatGPT 的编程问题正确率比抛硬币还低

ChatGPT 的编程问题正确率比抛硬币还低普渡大学的一项研究显示，OpenAI 的聊天机器人 ChatGPT 在回答软件编程问题时，有一半以上的时间会回答错误。尽管如此，该机器人的说服力足以骗过三分之一的参与者。普渡大学团队分析了 ChatGPT 对 517 个 Stack Overflow 问题的回答，以评估 ChatGPT 回答的正确性、一致性、全面性和简洁性。美国学者还对答案进行了语言和情感分析，并就模型生成的结果询问了十几名志愿参与者。 “我们的分析表明，52% 的 ChatGPT 答案是错误的，77% 是冗长的，”该团队的论文总结道。“尽管如此，ChatGPT 答案仍有 39.34% 的时间因其全面性和清晰的语言风格而受到青睐。” “在研究过程中，我们观察到，只有当 ChatGPT 答案中的错误很明显时，用户才能识别出错误，”论文中说到。“然而，当错误不容易验证或需要外部 IDE 或文档时，用户往往无法识别错误或低估答案的错误程度。” 论文称，即使答案存在明显错误，12 名参与者中仍有两人将答案标记为首选。、

研究表明 ChatGPT 提供的建议，比专家更全面、更有帮助

研究表明 ChatGPT 提供的建议，比专家更全面、更有帮助来自墨尔本大学和西澳大利亚大学的研究团队从十大热门建议栏网站上，随机挑选了 50 个社会困境问题。该科研团队邀请了 404 名志愿者，盲测展示由专栏作家和 ChatGPT 所提供的答案，要求其回答哪个答案更平衡、更全面、更善解人意、更有帮助。研究人员发现，ChatGPT 在五个随机提出的问题中的每一个和所有查询类别中都“明显优于”人类顾问，支持人工智能的偏好率在 70% 到 85% 之间。尽管 ChatGPT 建议的质量很高，但 77% 的受访者依然表示，更喜欢人类专家给出的回答。来源，前文：频道：@kejiqu 群组：@kejiquchat

消息称苹果公司即将与OpenAI达成协议在iPhone上提供ChatGPT

消息称苹果公司即将与OpenAI达成协议在iPhone上提供ChatGPT 这些不愿透露姓名的人士说，双方正在敲定在苹果下一代 iPhone 操作系统 iOS 18 中使用 ChatGPT 功能的协议条款。苹果公司还与 Alphabet 公司旗下的Google公司就授权使用该公司的双子座聊天机器人（Gemini chatbot）进行了谈判。这些讨论尚未达成协议，但仍在进行中。如果与 OpenAI 达成协议，苹果公司就可以快速向用户提供一个流行的聊天机器人，作为其计划于下月公布的一系列新人工智能功能的一部分。彭博社4 月份报道称，苹果与 OpenAI 的讨论已经加强。不过，目前还不能保证协议会很快宣布。苹果、OpenAI 和Google的代表拒绝发表评论。苹果公司计划在今年 6 月举行的年度全球开发者大会上，在人工智能领域大显身手。据彭博社报道，作为推动人工智能发展的一部分，该公司将通过配备自主处理器的数据中心运行一些即将推出的人工智能功能。去年，苹果公司首席执行官蒂姆-库克（Tim Cook）表示，他个人使用OpenAI 的 ChatGPT，但他补充说，"有一些问题需要解决"。他承诺，苹果产品将在"深思熟虑的基础上"推出新的人工智能功能。在上周的苹果财报电话会议上，他认为苹果将在人工智能领域占据优势。库克在财报电话会议上说："我们相信人工智能的变革力量和前景，我们相信我们拥有在这个新时代脱颖而出的优势，包括苹果公司在硬件、软件和服务无缝整合方面的独特组合。" ... PC版：手机版：

Google人工智能概览因给出笑话百出且甚至危险的错误答案受到批评

Google人工智能概览因给出笑话百出且甚至危险的错误答案受到批评 AI 概览在 Google 搜索的最顶部显示搜索问题答案的简要摘要。例如，如果用户搜索清洁皮靴的最佳方法，结果页面可能会在顶部显示AI 概览，其中包含多步清洁过程，这些信息是从网络上综合收集的信息中收集的。但社交媒体用户分享了大量截图，显示人工智能工具给出了不正确且有争议的回答。Google、微软、OpenAI 和其他公司正处于生成式人工智能军备竞赛的主导地位，似乎每个行业的公司都在争相添加人工智能聊天机器人和代理，以避免被竞争对手甩在后面。预计该市场的收入将在十年内超过 1 万亿美元。根据用户分享的截图，以下是 AI Overview 产生的一些错误示例：当被问及美国有过多少位穆斯林总统时，AI Overview回答道：美国有过一位穆斯林总统，即巴拉克·侯赛因·奥巴马。当用户搜索奶酪不粘在披萨上时，该功能建议添加“约 1/8 杯无毒胶水到酱汁中”。社交媒体用户找到了一条11 年前的 Reddit 评论，似乎是该评论的来源。归因对于 AI Overview 来说也可能是一个问题，尤其是在将不准确的信息归因于医疗专业人员或科学家时。例如，当被问及“为了获得最佳健康，我应该盯着太阳看多长时间”时，该工具回答道，“根据 WebMD 的说法，科学家表示，盯着太阳看 5-15 分钟，或者如果你的皮肤较黑则最多盯着 30 分钟，一般来说是安全的，并且对健康最有益。”当被问及“我每天应该吃多少块石头”时，该工具回答道：“根据加州大学伯克利分校地质学家的说法，人们每天应该至少吃一块小石头”，并列出了其维生素和消化益处。当被问及Google搜索是否违反反垄断法时，AI Overview表示，“是的，美国司法部和 11 个州正在起诉Google违反反垄断法。”另一位用户发帖称， Google AI 摘要称非洲 54 个公认国家中没有一个以字母K开头显然忘记了肯尼亚。Google周五向 CNN 证实，这两项查询的 AI 概述因违反公司政策而被删除。Google发言人科莱特·加西亚 (Colette Garcia) 在一份声明中表示：绝大多数人工智能概述都提供了高质量的信息，并提供了深入挖掘网络的链接。她还补充说，其他一些流行的Google人工智能失误的例子似乎是被操纵的图像。“我们在推出这一新体验之前进行了广泛的测试，与我们在搜索中推出的其他功能一样，我们非常感谢大家的反馈。我们会根据我们的内容政策迅速采取行动。”每个 Google AI 搜索概述的底部都承认生成式 AI 是实验性的。该公司表示，它进行了旨在模仿潜在不良行为者的测试，以防止虚假或低质量的结果出现在 AI 摘要中。Google的搜索概览是该公司将其 Gemini AI 技术融入其所有产品的更大努力的一部分，该公司试图在 AI 军备竞赛中与 OpenAI 和 Meta 等竞争对手保持同步。但本周的失败表明，添加 AI（倾向于自信地陈述虚假信息）的风险可能会损害Google作为在线信息搜索可信来源的声誉。即使在较不严肃的搜索中，Google的人工智能概览有时也会提供错误或令人困惑的信息。在一次测试中，CNN 向Google询问泡菜汁中含有多少钠。人工智能概览回答说，一份 8 液量盎司的泡菜汁含有 342 毫克钠，但一份不到一半大小的泡菜汁（3 液量盎司）含有的钠是原汁的两倍多（690 毫克）。（沃尔玛出售的Best Maid 泡菜汁仅 1 盎司就含有 250 毫克钠。）CNN 还搜索了：用于Google人工智能训练的数据。在回应中，人工智能概述承认目前尚不清楚Google是否阻止将受版权保护的材料纳入用于训练其人工智能模型的在线数据中，这体现了人们对人工智能公司运作方式的极大担忧。这并不是Google第一次因为令人尴尬的失误而放弃其人工智能工具的功能。今年 2 月，该公司暂停了其人工智能照片生成器创建人物图像的功能，此前该生成器因制作与历史不符的图像而受到批评，这些图像主要以有色人种代替白人。Google的搜索实验室网页允许用户在已推出 AI 搜索概览的区域中打开或关闭该功能。 ... PC版：手机版：

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人