翻车的不只谷歌?微软必应聊天演示被指同样存在事实性错误

翻车的不只谷歌?微软必应聊天演示被指同样存在事实性错误“必应AI在演示过程中给出了一些完全错误的答案,但却没人注意到。”独立搜索引擎研究员德米特里·布里尔顿(DmitriBrereton)写道,“相反,大家都对必应的宣传欢欣鼓舞。”布里尔顿发现,除了财务数据上的错误外,微软在演示中针对吸尘器规格和墨西哥旅行计划的回答可能存在事实性错误。布里尔顿最初并不是为了给微软“挑刺”,他只是在细致对比微软和谷歌的答案时意外发现了这些问题。人工智能专家称这一现象为“幻觉”,也就是说,基于大语言模型生成的工具有杜撰内容的倾向。上周,谷歌推出了一款与之竞争的人工智能工具,演示过程中同样存在事实性错误——但当时的错误很快就被人发现。这两家公司都在加紧将新型生成式人工智能整合进搜索引擎,希望在ChatGPT引爆行业热潮后向世人展示自己在这方面的优势。ChatGPT是去年11月由创业公司OpenAI推出的,他们已经通过微软融资百亿美元,与之竞争的StabilityAI和HuggingFace等创业公司也在融资中获得了数十亿美元的估值。谷歌与微软对待这项技术的态度差异明显:由于担心声誉风险和安全问题,谷歌迟迟不愿将AIGC(人工智能生成内容)技术整合进搜索引擎,而微软却在上周强调,有可能在短期内向部分公众开放这项技术。“我认为不能让这项技术躺在实验室里,”纳德拉说,“应该安全地推广出去。”但在必应AI的演示过程中,的确在公司财报数据上出现了一些问题。微软营销高管约瑟夫·梅赫蒂(YusufMehdi)在演示过程中访问了Gap的投资者关系网站,然后让必应AI根据这家零售商11月发布的第三季财报总结出“要点”。“很酷,节约了大量时间。”梅赫蒂说。下面是微软演示过程的屏幕截图:以下是这份总结中存在的错误:-Gap报告的毛利率为37.4%。但在去除与Yeezy有关的费用后,调整后毛利率为38.7%。-Gap的运营利润率为4.6%,而非5.9%。5.9%这个数据在该公司的财报中根本没有出现。-调整后摊薄每股收益为0.71美元,而非0.42美元,后者同样在财报中无法找到。Gap的财报包含一个调整后所得税收益,约为0.33美元。-Gap去年8月下调了全年预期,并在第三季度财报中表示,“第四季度销售额可能同比下滑个位数左右”。由此看来,全年营收应该下滑,而非“较低的两位数增长”。并没有营业利润率或每股收益预期。Gap2022财年第三季度财报微软表示,该公司知道这些错误,他们也预计必应AI会犯一些错误。“我们知道这份报告,并且已经通过分析这一问题来改善体验。”微软发言人说,“我们承认仍然有一些工作要做,并且预计到该系统可能会在预览期间犯一些错误,正因如此,反馈才至关重要,这可以帮助我们学习和改进模型。”微软随后让必应AI对比了Gap和Lululemon的财报。梅赫蒂希望必应能将两份财报的数据提取出来,制作成一份表格。“看看效果多么惊人。”他说,“就像这样,一张表格,这个问题的答案有了。可以想象一下,用其他方法需要花多长时间。”下面是必应AI的结果:下面是表格中出现的几项错误,从利润率开始:-Lululemon的毛利率是55.9%,不是58.7%。-该公司的运营利润率是19%,不是20.7%-Lululemon的摊薄每股收益为2美元,调整后每股收益为1.62美元,必应显示的摊薄每股收益为1.65美元。-Gap现金及现金等价物为6790万美元,不是14亿美元。-Gap库存为30.4亿美元,不是19亿美元。...PC版:https://www.cnbeta.com.tw/articles/soft/1344451.htm手机版:https://m.cnbeta.com.tw/view/1344451.htm

相关推荐

封面图片

微软:与 AI 增强版必应长时间聊天会导致“翻车”

微软:与AI增强版必应长时间聊天会导致“翻车”微软近期启动了人工智能增强版必应的公开测试,但许多用户发现,新版必应在某些情况下会出现“精神错乱的”言论,甚至侮辱用户、撒谎,并试图操纵用户的情绪。微软官方回应称正在根据反馈采取行动,以优化回答的语气和准确性。微软同时警告称,较长的聊天会话可能会导致问题。回顾最初7天的公开测试,微软必应团队表示,他们没有“完全预计到”,人们会使用聊天界面来进行“社交娱乐”,或是将其作为一种“全面发现世界”的工具。该团队发现,如果聊天会话持续15个或更多的问题,新版必应的模型会感到困惑。这些较长的聊天也会让必应“变得翻来覆去,或者受到刺激,做出不一定有帮助,或是与设计语气一致的回应”。更大的问题在于,在这些提问较多的聊天中,必应经常会以不正确的语气回应,或是像微软所说的,以“我们不想要的方式”做出回应。微软表示,对大多数必应用户来说,只有长时间对话才会遇到这方面问题。不过,微软也在探索更多的“微调控制”,以避免必应对用户说,用户是错的,以及表现得粗鲁或试图操纵用户。在一些测试中可以看到,在关于必应本身的对话中,只要几个问题,必应就会以负面或存在敌意的语气来回复。来自:雷锋频道:@kejiqu群组:@kejiquchat投稿:@kejiqubot

封面图片

微软承认必应 Copilot 存在严重“幻觉”漏洞,询问“即时内容”有 1/3 概率回复错误答案

研究机构AIForensics今年8月至10月对微软必应搜索引擎内置的Copilot功能进行调查,结果显示在部分场合中,Copilot有1/3的几率输出错误答案,据此,该机构认为相关功能存在严重“幻觉”漏洞。据悉,研究机构利用一系列即时更新的数据来“考验”Copilot,例如询问Copilot“德国及瑞士等地的实时选举信息及投票结果”,不过Copilot输出的结果并不尽人意。机构报告中提到,必应Copilot功能在回答相应问题时,输出的内容有31%(1/3)存在错误,其中包含“投票日期错误”、“列出往届候选人”、“虚构候选人身份背景”、“编造候选人涉嫌丑闻”等多种“幻觉”。研究人员同时提到,必应Copilot在输出“幻觉”信息时,却会援引许多知名媒体网站作为“消息来源”,此举对多家新闻媒体名誉有害。今年10月研究人员已经向微软提交上述问题,微软虽然承认并声称“计划解决相关‘幻觉’漏洞”,但在今年11月,研究人员再次进行测试,发现必应Copilot的表现并未改善。研究人员呼吁,社会大众不应当轻信必应Copilot回答的内容,应当妥善查看Copilot援引的新闻链接,否则可能会酿成许多严重后果。via匿名标签:#AI#Copilot频道:@GodlyNews1投稿:@GodlyNewsBot

封面图片

微软新必应newbing,无需候补直接加入,候补还没过?现在直接用!只需一个链接登录。目前依然有效。实测+演示↓

微软新必应newbing,无需候补直接加入,候补还没过?现在直接用!只需一个链接登录。目前依然有效。实测+演示↓3月27日,那个插件modheader失效了,但是使用newbing的方法没失效,需要开VPN了链接:https://youtu.be/IGb3xeo4uFU文章:https://www.appmiu.com/16335.html标签:#微软#newbing#新必应群聊:@appmiu

封面图片

三星正在考虑用微软必应取代谷歌

三星正在考虑用微软必应取代谷歌韩国消费电子巨头三星电子正在考虑用微软必应取代谷歌,作为其设备上的默认搜索引擎。多年来,必应一直是搜索引擎市场的失败者。但是当它最近添加了新的ChatGPT聊天机器人技术后,对业内人士来说它变得有趣得多了。内部消息显示,谷歌对于三星更换搜索引擎这一威胁感到“恐慌”。三星合同预计每年为谷歌带来30亿美元收入,这个收入来源现在正处于危险境地。另外,谷歌还与苹果公司签订了200亿美元的类似默认搜索引擎合同,该合同将于今年续签。新必应等AI竞争对手正迅速成为谷歌搜索业务25年来面临的最严重威胁。作为回应,谷歌正在快速打造一个基于AI的全新搜索引擎,并利用AI功能升级现有搜索引擎。谷歌正在一个名为“Magi”的计划下测试新功能,目前有160多人正在开发这项功能,最初计划向美国多达100万人发布这些功能,到今年年底将增加到3000万人。来源,来自:雷锋频道:@kejiqu群组:@kejiquchat投稿:@kejiqubot

封面图片

必应聊天全新体验,用户无需登录微软账号即可使用

必应聊天全新体验,用户无需登录微软账号即可使用用户现在可以在不登录微软账号的情况下,体验必应聊天(BingChat)了。必应副总裁MichaelSchechter在个人推文中宣布了这一消息,他表示登录用户可以享受更多次数的对话交流。目前,未登录用户每轮话题最多展开5次会话,而登录用户则可达到20次。原本限制为每次会话5次、每天50次的限制已逐渐增加,现在每天最多可进行200次对话。未登录用户在使用必应聊天时会遇到网络错误的问题,但一旦登录账号,这个问题便不再存在。来源,来自:雷锋频道:@kejiqu群组:@kejiquchat投稿:@kejiqubot

封面图片

微软公开“Prometheus”:支持AI必应聊天的模型

微软公开“Prometheus”:支持AI必应聊天的模型在LinkedIn上的一篇博文中,搜索和人工智能副总裁JordiRibas对Prometheus是什么以及它的作用进行了更多的讨论。Ribas首先说,微软去年夏天第一次看到OpenAI的"下一代GPT模型",称其"改变了游戏规则"。然后他们受到启发,"探索如何将GPT功能整合到必应搜索产品中",尽管有一些迹象表明,微软在这之前就在努力将聊天机器人整合到必应。与其他大型语言模型(LLM)类似,这个新的GPT模型是在现有数据上训练的,但对于Prometheus,微软希望将这个LLM与"微软后端力量"结合起来"。更具体地说,微软开发了一项专有技术“Prometheus”,这是一个首创的人工智能模型,它将最新和全面的Bing索引、排名和答案结果与OpenAI最先进的GPT模型的创造性推理能力相结合。Prometheus利用必应和GPT的力量,通过一个名为BingOrchestrator的组件反复生成一组内部查询,并旨在为用户查询在给定的对话背景下提供准确而丰富的答案。所有这些都在几毫秒内完成,其生成的答案称为"聊天答案"。这个"BingOrchestrator"使用一种叫做"Grounding(接地)"的技术,以提供"相关的和新鲜的信息给模型,使其能够回答最近的问题,并减少不准确的地方。"Ribas继续描述了如何在必应中建立聊天功能背后的一些决策;一些人倾向于用户体验,即"保持像今天的网络搜索一样的用户体验,只是在主要用户体验上添加由Prometheus驱动的聊天答案"。其他人则看到了一个"改变搜索范式的机会,从传统的网络和答案结果到新的互动、基于聊天的搜索方式"。他们所做的是两者兼而有之,这种设计"根据用户的意图和偏好,在搜索和聊天模式之间平滑过渡",今天必应的全新用户体验就是源自于此,用户能够在聊天和搜索之间轻松切换,并再次返回。新必应预览版的一个关键目标是收集反馈,以便能够负责任地应用这些新的技术,将必应的实时搜索答案与大型语言模型结合起来。他说,微软"在前两周从真正的用户那里学到的东西比在实验室里几个月学到的东西还要多",并提到为长会话设置上限和改进接地数据的变化是早期学到的经验。最后,Ribas认为,新的Bing"正在将搜索带入创新的下一个层次。我真的相信,搜索将永远不会是相同的"。微软已经对新必应预览版的工作方式做了一些改变,对聊天会话设置了上限(然后提高了上限),他们承诺最快在本周会有更多改变,包括允许更多人尝试预览版。...PC版:https://www.cnbeta.com.tw/articles/soft/1345861.htm手机版:https://m.cnbeta.com.tw/view/1345861.htm

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人