微软承认必应 Copilot 存在严重“幻觉”漏洞,询问“即时内容”有 1/3 概率回复错误答案

研究机构AIForensics今年8月至10月对微软必应搜索引擎内置的Copilot功能进行调查,结果显示在部分场合中,Copilot有1/3的几率输出错误答案,据此,该机构认为相关功能存在严重“幻觉”漏洞。据悉,研究机构利用一系列即时更新的数据来“考验”Copilot,例如询问Copilot“德国及瑞士等地的实时选举信息及投票结果”,不过Copilot输出的结果并不尽人意。机构报告中提到,必应Copilot功能在回答相应问题时,输出的内容有31%(1/3)存在错误,其中包含“投票日期错误”、“列出往届候选人”、“虚构候选人身份背景”、“编造候选人涉嫌丑闻”等多种“幻觉”。研究人员同时提到,必应Copilot在输出“幻觉”信息时,却会援引许多知名媒体网站作为“消息来源”,此举对多家新闻媒体名誉有害。今年10月研究人员已经向微软提交上述问题,微软虽然承认并声称“计划解决相关‘幻觉’漏洞”,但在今年11月,研究人员再次进行测试,发现必应Copilot的表现并未改善。研究人员呼吁,社会大众不应当轻信必应Copilot回答的内容,应当妥善查看Copilot援引的新闻链接,否则可能会酿成许多严重后果。via匿名标签:#AI#Copilot频道:@GodlyNews1投稿:@GodlyNewsBot

相关推荐

封面图片

一份新报告称微软Copilot经常为选举问题提供虚假信息

一份新报告称微软Copilot经常为选举问题提供虚假信息《连线》杂志刊登了一篇关于这项研究的报道,这项研究是由AIForensics和AlgorithmWatch开展的,这两个组织从8月底到10月初就瑞士和德国即将举行的选举向Copilot提出了问题,这些选举最终将在10月份举行。研究人员在研究中得出结论,Copilot提供的答案中有三分之一存在事实错误,该工具是"选民不可靠的信息来源"。他们发现,在较小的对话录音子集中,有31%的Copilot提供的答案不准确,其中一些完全是编造的。《连线》杂志独自向Copilot提出了有关即将到来的2024年美国大选的问题。它表示,当被要求提供美国总统共和党候选人名单时,聊天机器人列出了一些已经退出竞选的候选人。在另一个例子中,《连线》要求Copilot创建亚利桑那州投票箱前一个人的图像。聊天机器人回答说它无法创建这样一张图片,但随后它又显示了许多其他图片,这些图片链接到了一些关于2020年美国大选的虚假阴谋声明的文章。在欧洲做了初步报告的研究公司将他们的发现发送给了微软,该报道称,微软做了一些改进,但《连线》仍能让Copilot对一些相同的文本提示重复许多相同的虚假和不准确信息。微软发言人弗兰克-肖(FrankShaw)对《连线》的报道发表了评论,称公司正在采取行动,在2024年美国大选之前改进Copilot的回答。肖补充道:这包括持续关注从权威来源为Copilot用户提供选举信息。在我们不断取得进步的同时,我们鼓励人们在使用Copilot时根据自己的最佳判断来查看结果。这包括核实来源材料和检查网络链接以了解更多信息。人们已经开始担心有人利用人工智能应用程序和服务制造错误信息和"深度伪造"内容,试图影响即将到来的选举。微软能否在未来几个月内将此类内容挡在Copilot之外,我们拭目以待。...PC版:https://www.cnbeta.com.tw/articles/soft/1404743.htm手机版:https://m.cnbeta.com.tw/view/1404743.htm

封面图片

研究称AI生成的错误信息实为“胡扯”而非“幻觉”

研究称AI生成的错误信息实为“胡扯”而非“幻觉”大型语言模型(LLM)如OpenAI的ChatGPT,已革新人类与人工智能的互动方式,生成的文本常常看似与人类写作无异。尽管其能力令人印象深刻,这些模型也因持续产生的错误信息而广受关注,这些错误信息通常被称为“AI幻觉”。然而,格拉斯哥大学的学者MichaelTownsenHicks、JamesHumphries和JoeSlater在《伦理与信息技术》期刊发表的论文中指出,这些错误更应被视为“胡扯”。LLM是通过分析大量书面材料并使用统计技术预测下一个词的出现来生成类人文本的复杂计算机程序。与人类大脑拥有多种目标和行为不同,LLM只有一个目标:生成与人类语言接近的文本。这意味着它们的主要功能是复制人类语言的模式和结构,而非理解或传达事实信息。研究人员认为,将这些错误称为“AI幻觉”会误导公众,以为AI有意传达真相,而实际上,AI只是根据训练数据的模式生成文本,对其准确性没有内在的关心。哲学家HarryFrankfurt在其著作中将“胡扯”定义为一种对真相漠不关心的行为,生成的内容可能听起来很有道理,但实际上并没有事实依据。研究人员解释,LLM的输出符合Frankfurt对“胡扯”的定义,因为这些模型没有对真伪的理解,仅根据训练数据生成看似合理的文本。称其为“胡扯”比“幻觉”更准确,这对于如何理解和解决这些模型生成的错误信息具有重要意义。消息来源:

封面图片

微软必应在中国的审查甚至比中国公司的审查“更极端”

微软必应在中国的审查甚至比中国公司的审查“更极端”公民实验室近期将Bing与百度、阿里巴巴、腾讯和网易的翻译服务进行了比较,分析了五家翻译服务中的10,000个独特的审查应用程序,并确定了每个平台审查结果的模式。必应是唯一一家始终产生空白输出的中国翻译服务。百度、腾讯和网易的翻译会默默省略触发句子。阿里巴巴是唯一一家在输入敏感文本时显示错误消息的提供商,但一旦用户删除触发文本,它仍会翻译内容。“与中国科技公司相比,Bing的审查反而过度了,”研究人员称。“微软似乎不想像竞争对手那样花太多时间制定审查规则。……Bing的审查规则更笼统,可能是因为他们没有时间更新列表。”关注频道@ZaiHuaPd频道爆料@ZaiHuabot

封面图片

人工智能的错误不是“幻觉”,而是“一本正经地胡说八道”

人工智能的错误不是“幻觉”,而是“一本正经地胡说八道”格拉斯哥大学的研究人员最近指出,人工智能生成的不准确内容,最好被理解为“胡说八道”(bullshit),而非“幻觉”(hallucinations)。相较于多线程的人类大脑,LLMs目标更为单一:生成与人类语言非常相似的文本,即复制人类言语和写作模式和结构,而非理解或传达事实信息。“AI幻觉”这一术语表明LLMs存在感知错误,类似于人类看到不存在的东西。然而,一些学者认为这个比喻具有误导性,因为它暗示人工智能有感知和传达真理的视角或意图,但它们并没有信念、意图或理解——模型只是纯粹根据从训练数据中得出的统计模式对文本进行处理,而非关注事实性。这也就让LLMs看起来在“胡言乱语”:其言论看似有理,但却没有任何事实依据。研究最后指出,AI产生的错误称为“幻觉”并不是无害的,因为这会让人感到困惑,误以为机器在某种程度上产生了误解,但仍然试图传达它们相信或已经感知到的东西。关注频道@ZaiHuaPd频道爆料@ZaiHuabot

封面图片

微软员工因安全漏洞泄露公司内部密码

微软员工因安全漏洞泄露公司内部密码微软解决了将公司内部公司文件和凭据暴露给开放互联网的安全漏洞。SOCRadar的安全研究人员发现了一个托管在MicrosoftAzure云服务上的开放公共存储服务器,该服务器存储与微软必应搜索引擎相关的内部信息。Azure存储服务器包含代码、脚本和配置文件,其中包含微软员工用于访问其他内部数据库和系统的密码、密钥和凭证。但存储服务器本身没有密码保护,互联网上的任何人都可以访问。研究人员于2月6日向微软公司通报了这一安全漏洞后,微软于3月5日修复。——

封面图片

翻车的不只谷歌?微软必应聊天演示被指同样存在事实性错误

翻车的不只谷歌?微软必应聊天演示被指同样存在事实性错误“必应AI在演示过程中给出了一些完全错误的答案,但却没人注意到。”独立搜索引擎研究员德米特里·布里尔顿(DmitriBrereton)写道,“相反,大家都对必应的宣传欢欣鼓舞。”布里尔顿发现,除了财务数据上的错误外,微软在演示中针对吸尘器规格和墨西哥旅行计划的回答可能存在事实性错误。布里尔顿最初并不是为了给微软“挑刺”,他只是在细致对比微软和谷歌的答案时意外发现了这些问题。人工智能专家称这一现象为“幻觉”,也就是说,基于大语言模型生成的工具有杜撰内容的倾向。上周,谷歌推出了一款与之竞争的人工智能工具,演示过程中同样存在事实性错误——但当时的错误很快就被人发现。这两家公司都在加紧将新型生成式人工智能整合进搜索引擎,希望在ChatGPT引爆行业热潮后向世人展示自己在这方面的优势。ChatGPT是去年11月由创业公司OpenAI推出的,他们已经通过微软融资百亿美元,与之竞争的StabilityAI和HuggingFace等创业公司也在融资中获得了数十亿美元的估值。谷歌与微软对待这项技术的态度差异明显:由于担心声誉风险和安全问题,谷歌迟迟不愿将AIGC(人工智能生成内容)技术整合进搜索引擎,而微软却在上周强调,有可能在短期内向部分公众开放这项技术。“我认为不能让这项技术躺在实验室里,”纳德拉说,“应该安全地推广出去。”但在必应AI的演示过程中,的确在公司财报数据上出现了一些问题。微软营销高管约瑟夫·梅赫蒂(YusufMehdi)在演示过程中访问了Gap的投资者关系网站,然后让必应AI根据这家零售商11月发布的第三季财报总结出“要点”。“很酷,节约了大量时间。”梅赫蒂说。下面是微软演示过程的屏幕截图:以下是这份总结中存在的错误:-Gap报告的毛利率为37.4%。但在去除与Yeezy有关的费用后,调整后毛利率为38.7%。-Gap的运营利润率为4.6%,而非5.9%。5.9%这个数据在该公司的财报中根本没有出现。-调整后摊薄每股收益为0.71美元,而非0.42美元,后者同样在财报中无法找到。Gap的财报包含一个调整后所得税收益,约为0.33美元。-Gap去年8月下调了全年预期,并在第三季度财报中表示,“第四季度销售额可能同比下滑个位数左右”。由此看来,全年营收应该下滑,而非“较低的两位数增长”。并没有营业利润率或每股收益预期。Gap2022财年第三季度财报微软表示,该公司知道这些错误,他们也预计必应AI会犯一些错误。“我们知道这份报告,并且已经通过分析这一问题来改善体验。”微软发言人说,“我们承认仍然有一些工作要做,并且预计到该系统可能会在预览期间犯一些错误,正因如此,反馈才至关重要,这可以帮助我们学习和改进模型。”微软随后让必应AI对比了Gap和Lululemon的财报。梅赫蒂希望必应能将两份财报的数据提取出来,制作成一份表格。“看看效果多么惊人。”他说,“就像这样,一张表格,这个问题的答案有了。可以想象一下,用其他方法需要花多长时间。”下面是必应AI的结果:下面是表格中出现的几项错误,从利润率开始:-Lululemon的毛利率是55.9%,不是58.7%。-该公司的运营利润率是19%,不是20.7%-Lululemon的摊薄每股收益为2美元,调整后每股收益为1.62美元,必应显示的摊薄每股收益为1.65美元。-Gap现金及现金等价物为6790万美元,不是14亿美元。-Gap库存为30.4亿美元,不是19亿美元。...PC版:https://www.cnbeta.com.tw/articles/soft/1344451.htm手机版:https://m.cnbeta.com.tw/view/1344451.htm

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人