Google工程师2018年内部信曝光 5年前就有人拉响AI警报了

Google工程师2018年内部信曝光 5年前就有人拉响AI警报了 乍看起来,这一切都发生地非常突然,Google应对起来也很被动。但其实,早在 2018 年,Google内部就已经有工程师拉响了警报,指出 AI 正在对Google的业务带来风险,尤其是网页搜索。众所周知,Google借助用户交互数据对搜索结果进行排名。通过观察用户与搜索结果页面的交互方式(点击结果、后退、点击其他内容),Google能够知道哪些页面与特定查询最相关。多年来,这帮助Google保持了搜索相关性的领先地位,因为它比其他任何搜索引擎都拥有更多的用户交互数据。但在 2018 年底,Google的工程师们突然意识到一个惊人的问题:复杂的语言模型最终将能够仅通过网页文本理解网页,而无需任何用户反馈。而这可能会危及Google在搜索领域长达 20 年的优势,这种威胁甚至可能来自一家小型初创公司。Google资深软件工程师 Eric Lehman 就是早早意识到这一问题的工程师之一。为了表达自己的这份担忧,他还专门写了一份邮件:我想写写我在假期期间思考的一个问题:在不远的将来,深度机器学习系统将明显优于Google 20 年来积累的网页搜索相关性算法。此处我所讨论的仅限于“相关性” 即判断一个文档与一个查询讨论的是否为同一主题。网页排名还涉及许多其他方面,在这些方面,机器学习似乎不那么适用。但我认为,基本的相关性是网页排名的核心任务,足够“客观”,可以很有效地使用 ML。没有人能预见未来,但我敢打赌,这几乎肯定会在 5 年内成为现实,甚至可能在 6 个月内成为现实。类似于网页排名的问题一个接一个被解决,几乎没有理由认为网页排名会是个例外。实际上,这个问题思考的出发点是源于 AI 最近在网络问答方面取得的进展,深度 ML(具体来说是 BERT)突然取代了之前几乎所有的工作。对于网页问答团队来说,过去几周深度 ML 带来的巨变是完全出乎意料的。有了这次预警,我们不应再被意外打败;相反,我们应该从现在开始考虑其后果。而且,“现在”正是时候,因为我预计在新的一年里,很多网页排名工程师将会反思 BERT,并开始沿着这些相同的线路思考。一个需要考虑的事实是,这样的深度 ML 系统可能会在Google之外的地方被开发出来 比如在微软、百度、Yandex、亚马逊、苹果…… 甚至是一个创业公司。在我的印象中,翻译团队已经有过这种经历。深度 ML 彻底改变了翻译领域;过去的优势被一扫而空。幸运的是,Google在深度 ML 上的巨大投资得到了回报,我们在这个新领域表现出色。然而,我们的新 ML 翻译器在基准测试中仍然被一家小型创业公司超越。我们可以从 BERT 中得出一个惊人的结论:大量的用户反馈在很大程度上可以被原始文本的无监督学习所取代。这可能会对Google产生重大影响,导致Google在相关性方面输给其他公司。网络搜索中的相关性可能不会很快被深度 ML 所颠覆,因为我们依赖的记忆系统远大于任何当前的 ML 模型,并且包含了大量关于语言和世界的重要知识。此外还有许多性能挑战和特殊考虑等。尽管如此,我认为我们当前方法的优势最终会消失;ML 正在迅速进步,而传统技术则不然。我不知道其他人怎么看。个人而言,我倾向于认为这个未来几乎是不可避免的,但我还没有深入思考其后果。我们可能需要思考的一些问题包括:我们能不能现在就采取措施,确保自己引领这一变革,而不是成为变革的牺牲品?就我个人而言,我不想在未来几年,人们回顾时认为,“那些坚守传统网页排名方法的人被新潮流碾压,而他们却毫无预警……”我们能否制定一个 2019 年的合作目标,结合研究力量,利用深度模型击败我们现有的最佳预测呢?我们如何在不打击士气的情况下与从事网页排名工作的人讨论这个可能的未来?我听说翻译团队几年前就决定“all in”大规模 ML,现在回想起来,这似乎是明智之举。今天,我对围绕相关性采取如此极端的措施持怀疑态度,因为从现在到深度 ML 方法真正占据主导地位的这段时间里,我们可能会牺牲传统方法所取得的重大成果 我认为这至少还需要几年的时间。然而,听到 BERT 的警示而不调整我们的计划似乎也是不明智的。在Google内部,Eric Lehman 可能不是唯一发现并指出这一问题的人。在此之后,Google也确实采取了一些做法来更新自己的搜索系统。比如,在 2019 年 10 月,Google正式宣布,他们的搜索引擎用上了 BERT,能够改善 10% 的搜索结果。一年后,Google又宣布,几乎所有的英文搜索都用上 BERT 了。不过,在之后的两三年里,Google并没有采取更激进的措施,比如直接做一个基于大型语言模型的搜索系统,直接给用户答案。这就给很多创业公司提供了机会,比如 AI 驱动的搜索引擎 perplexity。这家公司的 CEO 表示,在推出 perplexity 的最初几周,一位Google老员工就对他说过,“不用太担心吸引大量用户来与Google竞争。你生活在一个可以从原始网络文本中进行无监督学习的时代。你并不需要那么多点击流数据就能构建出好的索引和排名系统,这就是你的机会。”那么,Google为什么没有再接再厉,及早推出基于大型语言模型的搜索系统呢?有人分析出了Google当时的几个顾虑:会对依赖蓝色链接(即传统搜索结果链接)流量的生态系统造成太大伤害:Google搜索的一个主要功能是将用户引导到其他网站,而采用 LLM 答案系统可能会直接提供答案而非链接,这样会减少引导到外部网站的流量,对依赖这种流量的网站造成影响。即使Google决定因为竞争对手的压力而接受这种变化,监管机构可能也不会同意。从监管的角度看,直接提供答案而减少对其他网站链接的引用可能会引起关于市场垄断和竞争公平性的担忧。即使在美国,监管机构可能不采取行动,这种威胁本身也是令人瘫痪的:这意味着,即便没有实际的监管干预,仅仅是存在这种可能性和随之而来的法律和公众压力,就足以使Google在采取这种策略方面犹豫不决。在 ChatGPT 走红之初,Meta 首席人工智能科学家 Yann LeCun 也表达过类似想法,表示大公司确实更难以推动这种大的革新,因为他们面临的公众、监管压力要更大。后面的故事走向大家都很熟悉了:除了像 perplexity 这样的搜索新秀,Google还要应对来自微软的威胁,后者通过与 OpenAI 合作,将自己的搜索引擎彻底重构,打造了新必应。不过,在过去的一年里,微软的新搜索业务并没有对Google形成真正的威胁。根据美国网站流量统计服务商 Statcounter 公布的统计数据,2023 年 2 月 Bing 在全球市场的份额是 3.03%,在一年时间过去后,其市场份额仅仅只是达到了 3.4%。这可能和新必应使用体验不佳、提示工程门槛较高等因素有关。与此同时,基于最新的 Gemini Ultra 模型,Google对于搜索引擎的重构步伐也在加快。看起来,虽然行动慢了一些,Google搜索的地位暂时还无人可以撼动。 ... PC版: 手机版:

相关推荐

封面图片

Google证实泄露其算法的搜索引擎API文档是真实的

Google证实泄露其算法的搜索引擎API文档是真实的 这些文件详细描述了Google正在跟踪的数据,其中一些数据可能被用于其严密保护的搜索排名算法。这些文件为我们提供了一个前所未有的机会,让我们一窥这个对网络影响最大的系统的秘密。Google发言人戴维斯-汤普森(Davis Thompson)在一封电子邮件中表示:"我们提醒大家不要根据断章取义、过时或不完整的信息对搜索做出不准确的假设。我们已经分享了有关搜索如何工作以及我们系统权衡的因素类型的大量信息,同时也在努力保护我们结果的完整性,使其免受操纵。"本周早些时候,搜索引擎优化(SEO)专家兰德-菲什金(Rand Fishkin)和迈克-金(Mike King)分别发表了对这些文件及其内容的初步分析,首次指出了这些泄露资料的存在。泄露的资料显示,Google收集并可能使用公司代表所说的无助于Google搜索网页排名的数据,如点击量、Chrome 浏览器用户数据等。这些长达数千页的文件为Google员工提供了一个信息库,但目前还不清楚哪些详细的数据实际上被用于搜索内容的排名这些信息可能已经过时,可能仅用于培训目的,也可能是收集来的,但并不专门用于搜索。这些文件也没有透露不同元素在搜索中的权重(如果有的话)。这些公开的信息很可能会在搜索引擎优化(SEO)、市场营销和出版行业引起轩然大波。Google通常对其搜索算法的运作方式高度保密,但这些文件以及最近在美国司法部反托拉斯案中的证词,让人们更加清楚地了解到Google在对网站进行排名时会考虑哪些信号。Google在搜索方面做出的选择对任何依靠网络开展业务的人,从小型独立出版商、餐馆到网上商店,都有着深远的影响。反过来,一个希望破解密码或智胜算法的行业也应运而生,给出的答案有时相互矛盾。Google含糊其辞、讳莫如深的态度也无济于事,但大量涌现的内部文件至少让人们了解了这家网络霸主的想法。相关文章:长达2500页的大量Google API文档遭泄露 揭示了秘密的搜索排名算法 ... PC版: 手机版:

封面图片

Google Chrome 的搜索栏现在由机器学习驱动 可提供更好的建议

Google Chrome 的搜索栏现在由机器学习驱动 可提供更好的建议 在最新的 Chrome 浏览器更新(M124)中,Google将机器学习模型集成到了全能框或搜索栏中。机器学习将帮助 Chrome 浏览器根据用户搜索的内容提供准确的建议。Google表示,该浏览器以前依赖于"手工构建和手工修改的公式"来推荐搜索结果。然而,这样做的主要问题是不够灵活,无法在新的场景中进行改进或采用。在 Chrome 浏览器搜索栏中注入新的机器学习模型后,Google可以随着时间的推移"收集更新鲜的信号,重新训练、评估和部署新模型"。在被问及改进omnibox的想法时,第一位回答是"改进评分系统",因此在搜索栏中采用机器学习技术是一件大事,因为正如Google所指出的那样,"评分系统在很长一段时间内基本上没有被触及"。根据Google的说法,Chrome 浏览器全能框中的机器学习模型在推荐网页时会考虑到你之前对某个网址的操作。也就是说,如果用户在过去几秒或几分钟内离开了某个网页,机器学习模型就会根据自己的理解给该网页打一个较低的分数,认为它不是要找的网站。展望未来,Google认为,这种新的机器学习模型将开辟"许多新的可能性,通过可能纳入新的信号来改善用户体验,比如区分一天中的不同时间来提高相关性"。此外,Google还表示,相关性评分系统应随着时间的推移而变化,由于采用了新的评分系统,Google现在可以"简单地收集更新鲜的信号,重新训练、评估并定期部署新的模型",以获得更好的结果。了解更多: ... PC版: 手机版:

封面图片

【Google中国工程师涉窃密被捕】

【Google中国工程师涉窃密被捕】 一名中国软体工程师涉嫌窃取Google的 #人工智能(AI)技术,6日在加州遭美国逮捕。 他面临4项窃取商业秘密的指控,若被定罪,每项罪名最高可判10年徒刑。 据美国司法部资讯,这名38岁的嫌犯丁林维(Linwei Ding,音译)2019年获聘于Google,曾参与研发Google超级运算数据中心所使用的软体。 他被指控自2022年5月起的1年内,把Google的机密资讯上传到他个人的云端帐号;同时期,他曾私下与中国的科技公司往来。 美国联邦调查局(FBI)局长雷(Christopher Wray)声明称,此事再一次显示跟中国有关的企业"不遗余力窃取美国的创新成果"。 中国官方尚未回应此事。 在美中科技战之下,AI是主战场之一。 美国政府近期多次表达忧虑,担心外国敌对势力利用AI科技,干扰美国的政治活动。 来源:DW

封面图片

Google搜索引擎算法更新 打击SEO的垃圾网页和垃圾邮件

Google搜索引擎算法更新 打击SEO的垃圾网页和垃圾邮件 本周二,Google宣布了一项搜索质量更新,该更新将特别关注提高网站的搜索质量排名,并将更新Google搜索的垃圾邮件政策。就后者而言,Google的新政策将解决将低质量内容排除在搜索之外的问题,比如"过期网站被新的所有者重新用作垃圾信息库"等行为。该公司在公告中解释说,总体而言,此次更新旨在改进Google的排名系统,将"为搜索引擎而不是为人创建"的网页降级。也就是说,那些用户体验不佳的网站,或者那些似乎是为匹配特定搜索查询而设计的网站将受到影响。Google估计,通过这次更新和之前的努力,它将能够减少 40% 的低质量和非原创内容。虽然Google在博文中没有直接提及"人工智能"或"AI"一词,但它通过解释规模化内容创建方法通常利用"自动化",暗示了这种新技术对网络的影响。由于这些技术的复杂性,人们并不总是清楚内容是由人工创建的,还是涉及自动化,或者是两者的结合。相反,Google表示,它将重点关注为提高搜索排名而大规模创建内容的滥用行为,无论网站是如何创建的。这可能会影响到那些假装为热门搜索查询提供答案,但实际上并没有为最终用户提供多少价值的网页。Google的改变还将解决"网站声誉滥用"的问题,即一个通常提供有价值内容的网站也在其域名上托管来自第三方的低质量内容,以混淆用户并利用网站现有的声誉。该公司提供了一个例子,说明教育网站可能也会包含小贷服务的评论以获得排名优势,但我们也可以想象这将影响到众多产品评论网站,这些网站似乎不再进行真正的实际测试,而只是假装进行测试。404 Media最近提出了这一问题,指出德国研究机构的一项新研究发现,在对一年中成千上万的搜索词进行分析后,Google的搜索质量客观上越来越差。与此同时,像 HouseFresh 的空气净化器评论网站这样专注于利基市场的独立网站也受到了搜索引擎优化垃圾内容增加的影响,这些内容淹没了他们以人为主导的专业产品研究。HouseFresh在上个月 的一篇博文中写道:"Google正在扼杀像我们这样的独立网站。"该博文深入探讨了大型媒体出版商的产品推荐在Google上的排名是如何超过其评论的,尽管它们看起来并不是合法的编辑评论。该更新还将解决过期域名滥用问题,即误导消费者新内容是旧网站的一部分,以及域名被转售和重新利用以提高低质量内容和垃圾邮件的问题。如果Google能在搜索质量更新中解决这些问题,那么它将对消费者如何看待Google搜索的实用性产生重大影响,而在人工智能进步之后,许多人对Google搜索的实用性越来越关注。出版商看到网站的点击率越来越低,新的初创公司,如Arc的网络浏览器和新闻阅读器,都在寻求利用人工智能来总结信息,从而牺牲了维持出版商网站活力的网站流量。Google表示,它将提前两个月于 5 月 5 日公布政策,以便网站所有者有时间做出更改。了解更多: ... PC版: 手机版:

封面图片

法官考虑对Google销毁内部聊天记录的行为进行制裁

法官考虑对Google销毁内部聊天记录的行为进行制裁 据司法部称,Google不仅在调查期间,还在诉讼期间销毁了可能达数十万次的聊天记录。Google只是在司法部发现这一政策后才停止了这一做法。司法部的律师肯尼思-丁泽(Kenneth Dintzer)周五告诉梅塔,司法部认为法院应该"得出结论,关闭历史记录显示了隐藏信息的反竞争意图,因为他们知道自己违反了反垄断法"。梅赫塔至少同意"Google的文件保留政策还有很多不尽如人意的地方",并对Google这样的大公司竟然会把这样的政策作为最佳实践来制定表示震惊和惊讶。Google的律师科莱特-康纳(Colette Connor)告诉梅塔,早在司法部对Google的行为提出质疑之前就应该知道他们的的政策。康纳说,Google已向得克萨斯州总检察长明确披露了这一政策,后者参与了司法部对Google搜索和广告技术业务的反垄断诉讼。康纳还认为,Google的行为不应受到制裁,因为没有证据表明任何丢失的聊天记录会给案件带来任何新的线索。梅塔对此提出了质疑,他对康纳说:"我们只想知道我们不知道的东西。我们不知道是否有一个材料宝库被销毁了。"在反驳过程中,丁泽告诉梅塔,Google决定将该政策告诉德克萨斯州而不告诉联邦政府,并不符合联邦民事诉讼规则规定的披露义务。该规则规定,"只有在发现一方当事人有意剥夺另一方当事人在诉讼中使用该信息的权利时",法院才能"推定所丢失的信息对该当事人不利"。司法部要求法院做出上述裁决,并发布四项命令制裁Google。他们希望法院下令"推定被删除的聊天记录是不利的","推定Google为删除聊天记录而提出的理由"是"借口"(隐瞒Google的真实理由),以及"推定Google有意"删除聊天记录以"维持其垄断地位"。政府还希望"禁止Google辩称缺乏证据就是不利推论的证据",这将阻止Google辩称司法部只是假设删除的聊天记录对Google不利。梅塔问康纳是否同意,"至少"Google让员工保存敏感讨论的聊天记录是"疏忽",但康纳不同意。她认为,"鉴于聊天的典型用途",Google的历史记录关闭政策是"合理的"。康纳告诉梅塔,司法部必须证明Google有意隐藏证据,法院才能下达制裁令。梅塔指出,这种意图可以通过另一种方式来证明,他回顾说,"Google一直非常谨慎地建议员工在讨论可能表明垄断行为的问题时,什么该说,什么不该说"。这包括告诉员工"不要使用市场这个词",梅塔问康纳这种行为是否可以被解释为Google有意隐藏证据。但康纳又不同意了:"不,我们认为你不能把它作为证据,它与本案的诉讼请求无关"。但在反驳过程中,丁泽认为有证据证明了其相关性。他说,Google员工的证词表明,Google的聊天政策"被统一用作一种不产生可发现信息的沟通方式",其目的是有意掩盖涉嫌违反反垄断法的行为。梅塔没有表明他是否认真考虑过制裁Google,并允许双方在庭审结束前做最后陈述。各州总检察长借此机会指责Google强化默认交易,以"冻结"搜索广告"生态系统",而司法部则声称,Google在搜索领域的垄断证据与上次针对微软的大型反垄断审判中发现的模式"如出一辙"。丁泽说:"就像微软在自己的系统上排斥竞争对手一样,Google与Android和苹果的交易显然对维护其垄断地位产生了重大影响,通过确保向所有Android和苹果手机用户提供Google作为默认的通用搜索引擎或唯一的通用搜索引擎,Google与Android和苹果的交易显然对维护其垄断地位产生了重大影响。这阻止了必应或任何其他竞争对手达到"对Google的垄断构成真正威胁"所需的"临界水平"。丁泽告诉梅塔:"今天必须采取行动,"他敦促法院裁定Google违反了《谢尔曼法》,并允许采取补救措施。Google的首席律师约翰-施密特林(John Schmidtlein)进行了反击。他声称,"我不知道丁泽先生戴的是什么手套",但微软的反垄断案件有本质区别,因为微软"胁迫第三方接受历史上由他们分销的劣质产品,而且他们强加了排他性",这显然阻碍了竞争对手的竞争,产生了"重大的反竞争影响"。将Google搜索引擎作为默认设置并不存在胁迫。相反,"每一个第三方Mozilla、三星、摩托罗拉、Verizon、AT&T、T-Mobile每一个相关的合作伙伴都来到法庭,说我们选择Google是因为它是最好的。"施密特林警告梅塔说:"这将是一个史无前例的决定,因为它事实上惩罚了一家在案情上胜诉的公司。"梅塔预计将在夏末秋初做出裁决。如果Google败诉,梅塔可能会下令解散其业务,并对其涉嫌销毁证据的行为进行制裁。相关文章:反垄断案庭审结束 Google有多大可能被强制拆分?谷歌垄断案的审判让硅谷感到不安分析称Google正在应对多年来首次严重威胁 ... PC版: 手机版:

封面图片

人工智能太耗能 Google的碳排放五年内飙升48%

人工智能太耗能 Google的碳排放五年内飙升48% Alphabet表示,其2023年全年的温室气体排放量总计为1430万吨二氧化碳当量。该公司表示,这比2019年高出48%,比2022年高出13%。Google表示,其数据中心的能源消耗和供应链的排放增加是罪魁祸首,并表示,其在产品中加入人工智能的努力可能会使未来减少排放变得更加困难。Google在报告中写道:“随着我们进一步将人工智能整合到我们的产品中,减少排放可能具有挑战性,因为人工智能计算强度的提高会增加能源需求,而且我们的技术基础设施投资预计会增加,这将导致排放增加。”调查显示,人工智能尤其是生成式人工智能,其接受用户输入并输出文本、图像或歌曲等新内容极其资源密集型的。随着技术的快速发展,需要越来越多的数据中心来构建和运行它,从而导致电力需求激增。 ... PC版: 手机版:

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人