Google工程师2018年内部信曝光 5年前就有人拉响AI警报了

Google工程师2018年内部信曝光 5年前就有人拉响AI警报了乍看起来，这一切都发生地非常突然，Google应对起来也很被动。但其实，早在 2018 年，Google内部就已经有工程师拉响了警报，指出 AI 正在对Google的业务带来风险，尤其是网页搜索。众所周知，Google借助用户交互数据对搜索结果进行排名。通过观察用户与搜索结果页面的交互方式（点击结果、后退、点击其他内容），Google能够知道哪些页面与特定查询最相关。多年来，这帮助Google保持了搜索相关性的领先地位，因为它比其他任何搜索引擎都拥有更多的用户交互数据。但在 2018 年底，Google的工程师们突然意识到一个惊人的问题：复杂的语言模型最终将能够仅通过网页文本理解网页，而无需任何用户反馈。而这可能会危及Google在搜索领域长达 20 年的优势，这种威胁甚至可能来自一家小型初创公司。Google资深软件工程师 Eric Lehman 就是早早意识到这一问题的工程师之一。为了表达自己的这份担忧，他还专门写了一份邮件：我想写写我在假期期间思考的一个问题：在不远的将来，深度机器学习系统将明显优于Google 20 年来积累的网页搜索相关性算法。此处我所讨论的仅限于“相关性” 即判断一个文档与一个查询讨论的是否为同一主题。网页排名还涉及许多其他方面，在这些方面，机器学习似乎不那么适用。但我认为，基本的相关性是网页排名的核心任务，足够“客观”，可以很有效地使用 ML。没有人能预见未来，但我敢打赌，这几乎肯定会在 5 年内成为现实，甚至可能在 6 个月内成为现实。类似于网页排名的问题一个接一个被解决，几乎没有理由认为网页排名会是个例外。实际上，这个问题思考的出发点是源于 AI 最近在网络问答方面取得的进展，深度 ML（具体来说是 BERT）突然取代了之前几乎所有的工作。对于网页问答团队来说，过去几周深度 ML 带来的巨变是完全出乎意料的。有了这次预警，我们不应再被意外打败；相反，我们应该从现在开始考虑其后果。而且，“现在”正是时候，因为我预计在新的一年里，很多网页排名工程师将会反思 BERT，并开始沿着这些相同的线路思考。一个需要考虑的事实是，这样的深度 ML 系统可能会在Google之外的地方被开发出来比如在微软、百度、Yandex、亚马逊、苹果…… 甚至是一个创业公司。在我的印象中，翻译团队已经有过这种经历。深度 ML 彻底改变了翻译领域；过去的优势被一扫而空。幸运的是，Google在深度 ML 上的巨大投资得到了回报，我们在这个新领域表现出色。然而，我们的新 ML 翻译器在基准测试中仍然被一家小型创业公司超越。我们可以从 BERT 中得出一个惊人的结论：大量的用户反馈在很大程度上可以被原始文本的无监督学习所取代。这可能会对Google产生重大影响，导致Google在相关性方面输给其他公司。网络搜索中的相关性可能不会很快被深度 ML 所颠覆，因为我们依赖的记忆系统远大于任何当前的 ML 模型，并且包含了大量关于语言和世界的重要知识。此外还有许多性能挑战和特殊考虑等。尽管如此，我认为我们当前方法的优势最终会消失；ML 正在迅速进步，而传统技术则不然。我不知道其他人怎么看。个人而言，我倾向于认为这个未来几乎是不可避免的，但我还没有深入思考其后果。我们可能需要思考的一些问题包括：我们能不能现在就采取措施，确保自己引领这一变革，而不是成为变革的牺牲品？就我个人而言，我不想在未来几年，人们回顾时认为，“那些坚守传统网页排名方法的人被新潮流碾压，而他们却毫无预警……”我们能否制定一个 2019 年的合作目标，结合研究力量，利用深度模型击败我们现有的最佳预测呢？我们如何在不打击士气的情况下与从事网页排名工作的人讨论这个可能的未来？我听说翻译团队几年前就决定“all in”大规模 ML，现在回想起来，这似乎是明智之举。今天，我对围绕相关性采取如此极端的措施持怀疑态度，因为从现在到深度 ML 方法真正占据主导地位的这段时间里，我们可能会牺牲传统方法所取得的重大成果我认为这至少还需要几年的时间。然而，听到 BERT 的警示而不调整我们的计划似乎也是不明智的。在Google内部，Eric Lehman 可能不是唯一发现并指出这一问题的人。在此之后，Google也确实采取了一些做法来更新自己的搜索系统。比如，在 2019 年 10 月，Google正式宣布，他们的搜索引擎用上了 BERT，能够改善 10% 的搜索结果。一年后，Google又宣布，几乎所有的英文搜索都用上 BERT 了。不过，在之后的两三年里，Google并没有采取更激进的措施，比如直接做一个基于大型语言模型的搜索系统，直接给用户答案。这就给很多创业公司提供了机会，比如 AI 驱动的搜索引擎 perplexity。这家公司的 CEO 表示，在推出 perplexity 的最初几周，一位Google老员工就对他说过，“不用太担心吸引大量用户来与Google竞争。你生活在一个可以从原始网络文本中进行无监督学习的时代。你并不需要那么多点击流数据就能构建出好的索引和排名系统，这就是你的机会。”那么，Google为什么没有再接再厉，及早推出基于大型语言模型的搜索系统呢？有人分析出了Google当时的几个顾虑：会对依赖蓝色链接（即传统搜索结果链接）流量的生态系统造成太大伤害：Google搜索的一个主要功能是将用户引导到其他网站，而采用 LLM 答案系统可能会直接提供答案而非链接，这样会减少引导到外部网站的流量，对依赖这种流量的网站造成影响。即使Google决定因为竞争对手的压力而接受这种变化，监管机构可能也不会同意。从监管的角度看，直接提供答案而减少对其他网站链接的引用可能会引起关于市场垄断和竞争公平性的担忧。即使在美国，监管机构可能不采取行动，这种威胁本身也是令人瘫痪的：这意味着，即便没有实际的监管干预，仅仅是存在这种可能性和随之而来的法律和公众压力，就足以使Google在采取这种策略方面犹豫不决。在 ChatGPT 走红之初，Meta 首席人工智能科学家 Yann LeCun 也表达过类似想法，表示大公司确实更难以推动这种大的革新，因为他们面临的公众、监管压力要更大。后面的故事走向大家都很熟悉了：除了像 perplexity 这样的搜索新秀，Google还要应对来自微软的威胁，后者通过与 OpenAI 合作，将自己的搜索引擎彻底重构，打造了新必应。不过，在过去的一年里，微软的新搜索业务并没有对Google形成真正的威胁。根据美国网站流量统计服务商 Statcounter 公布的统计数据，2023 年 2 月 Bing 在全球市场的份额是 3.03%，在一年时间过去后，其市场份额仅仅只是达到了 3.4%。这可能和新必应使用体验不佳、提示工程门槛较高等因素有关。与此同时，基于最新的 Gemini Ultra 模型，Google对于搜索引擎的重构步伐也在加快。看起来，虽然行动慢了一些，Google搜索的地位暂时还无人可以撼动。 ... PC版：手机版：

在Telegram中查看

相关推荐

Google证实泄露其算法的搜索引擎API文档是真实的

Google证实泄露其算法的搜索引擎API文档是真实的这些文件详细描述了Google正在跟踪的数据，其中一些数据可能被用于其严密保护的搜索排名算法。这些文件为我们提供了一个前所未有的机会，让我们一窥这个对网络影响最大的系统的秘密。Google发言人戴维斯-汤普森（Davis Thompson）在一封电子邮件中表示："我们提醒大家不要根据断章取义、过时或不完整的信息对搜索做出不准确的假设。我们已经分享了有关搜索如何工作以及我们系统权衡的因素类型的大量信息，同时也在努力保护我们结果的完整性，使其免受操纵。"本周早些时候，搜索引擎优化（SEO）专家兰德-菲什金（Rand Fishkin）和迈克-金（Mike King）分别发表了对这些文件及其内容的初步分析，首次指出了这些泄露资料的存在。泄露的资料显示，Google收集并可能使用公司代表所说的无助于Google搜索网页排名的数据，如点击量、Chrome 浏览器用户数据等。这些长达数千页的文件为Google员工提供了一个信息库，但目前还不清楚哪些详细的数据实际上被用于搜索内容的排名这些信息可能已经过时，可能仅用于培训目的，也可能是收集来的，但并不专门用于搜索。这些文件也没有透露不同元素在搜索中的权重（如果有的话）。这些公开的信息很可能会在搜索引擎优化（SEO）、市场营销和出版行业引起轩然大波。Google通常对其搜索算法的运作方式高度保密，但这些文件以及最近在美国司法部反托拉斯案中的证词，让人们更加清楚地了解到Google在对网站进行排名时会考虑哪些信号。Google在搜索方面做出的选择对任何依靠网络开展业务的人，从小型独立出版商、餐馆到网上商店，都有着深远的影响。反过来，一个希望破解密码或智胜算法的行业也应运而生，给出的答案有时相互矛盾。Google含糊其辞、讳莫如深的态度也无济于事，但大量涌现的内部文件至少让人们了解了这家网络霸主的想法。相关文章:长达2500页的大量Google API文档遭泄露揭示了秘密的搜索排名算法 ... PC版：手机版：

Google Chrome 的搜索栏现在由机器学习驱动可提供更好的建议

Google Chrome 的搜索栏现在由机器学习驱动可提供更好的建议在最新的 Chrome 浏览器更新（M124）中，Google将机器学习模型集成到了全能框或搜索栏中。机器学习将帮助 Chrome 浏览器根据用户搜索的内容提供准确的建议。Google表示，该浏览器以前依赖于"手工构建和手工修改的公式"来推荐搜索结果。然而，这样做的主要问题是不够灵活，无法在新的场景中进行改进或采用。在 Chrome 浏览器搜索栏中注入新的机器学习模型后，Google可以随着时间的推移"收集更新鲜的信号，重新训练、评估和部署新模型"。在被问及改进omnibox的想法时，第一位回答是"改进评分系统"，因此在搜索栏中采用机器学习技术是一件大事，因为正如Google所指出的那样，"评分系统在很长一段时间内基本上没有被触及"。根据Google的说法，Chrome 浏览器全能框中的机器学习模型在推荐网页时会考虑到你之前对某个网址的操作。也就是说，如果用户在过去几秒或几分钟内离开了某个网页，机器学习模型就会根据自己的理解给该网页打一个较低的分数，认为它不是要找的网站。展望未来，Google认为，这种新的机器学习模型将开辟"许多新的可能性，通过可能纳入新的信号来改善用户体验，比如区分一天中的不同时间来提高相关性"。此外，Google还表示，相关性评分系统应随着时间的推移而变化，由于采用了新的评分系统，Google现在可以"简单地收集更新鲜的信号，重新训练、评估并定期部署新的模型"，以获得更好的结果。了解更多： ... PC版：手机版：

人工智能太耗能 Google的碳排放五年内飙升48%

人工智能太耗能 Google的碳排放五年内飙升48% Alphabet表示，其2023年全年的温室气体排放量总计为1430万吨二氧化碳当量。该公司表示，这比2019年高出48%，比2022年高出13%。Google表示，其数据中心的能源消耗和供应链的排放增加是罪魁祸首，并表示，其在产品中加入人工智能的努力可能会使未来减少排放变得更加困难。Google在报告中写道：“随着我们进一步将人工智能整合到我们的产品中，减少排放可能具有挑战性，因为人工智能计算强度的提高会增加能源需求，而且我们的技术基础设施投资预计会增加，这将导致排放增加。”调查显示，人工智能尤其是生成式人工智能，其接受用户输入并输出文本、图像或歌曲等新内容极其资源密集型的。随着技术的快速发展，需要越来越多的数据中心来构建和运行它，从而导致电力需求激增。 ... PC版：手机版：

Google搜索引擎算法更新打击SEO的垃圾网页和垃圾邮件

Google搜索引擎算法更新打击SEO的垃圾网页和垃圾邮件本周二，Google宣布了一项搜索质量更新，该更新将特别关注提高网站的搜索质量排名，并将更新Google搜索的垃圾邮件政策。就后者而言，Google的新政策将解决将低质量内容排除在搜索之外的问题，比如"过期网站被新的所有者重新用作垃圾信息库"等行为。该公司在公告中解释说，总体而言，此次更新旨在改进Google的排名系统，将"为搜索引擎而不是为人创建"的网页降级。也就是说，那些用户体验不佳的网站，或者那些似乎是为匹配特定搜索查询而设计的网站将受到影响。Google估计，通过这次更新和之前的努力，它将能够减少 40% 的低质量和非原创内容。虽然Google在博文中没有直接提及"人工智能"或"AI"一词，但它通过解释规模化内容创建方法通常利用"自动化"，暗示了这种新技术对网络的影响。由于这些技术的复杂性，人们并不总是清楚内容是由人工创建的，还是涉及自动化，或者是两者的结合。相反，Google表示，它将重点关注为提高搜索排名而大规模创建内容的滥用行为，无论网站是如何创建的。这可能会影响到那些假装为热门搜索查询提供答案，但实际上并没有为最终用户提供多少价值的网页。Google的改变还将解决"网站声誉滥用"的问题，即一个通常提供有价值内容的网站也在其域名上托管来自第三方的低质量内容，以混淆用户并利用网站现有的声誉。该公司提供了一个例子，说明教育网站可能也会包含小贷服务的评论以获得排名优势，但我们也可以想象这将影响到众多产品评论网站，这些网站似乎不再进行真正的实际测试，而只是假装进行测试。404 Media最近提出了这一问题，指出德国研究机构的一项新研究发现，在对一年中成千上万的搜索词进行分析后，Google的搜索质量客观上越来越差。与此同时，像 HouseFresh 的空气净化器评论网站这样专注于利基市场的独立网站也受到了搜索引擎优化垃圾内容增加的影响，这些内容淹没了他们以人为主导的专业产品研究。HouseFresh在上个月的一篇博文中写道："Google正在扼杀像我们这样的独立网站。"该博文深入探讨了大型媒体出版商的产品推荐在Google上的排名是如何超过其评论的，尽管它们看起来并不是合法的编辑评论。该更新还将解决过期域名滥用问题，即误导消费者新内容是旧网站的一部分，以及域名被转售和重新利用以提高低质量内容和垃圾邮件的问题。如果Google能在搜索质量更新中解决这些问题，那么它将对消费者如何看待Google搜索的实用性产生重大影响，而在人工智能进步之后，许多人对Google搜索的实用性越来越关注。出版商看到网站的点击率越来越低，新的初创公司，如Arc的网络浏览器和新闻阅读器，都在寻求利用人工智能来总结信息，从而牺牲了维持出版商网站活力的网站流量。Google表示，它将提前两个月于 5 月 5 日公布政策，以便网站所有者有时间做出更改。了解更多： ... PC版：手机版：

据 9to5google 报道，在 Pixel 8 活动期间，谷歌宣布了2024 年的“Assistant with Bard”

据 9to5google 报道，在 Pixel 8 活动期间，谷歌宣布了2024 年的“Assistant with Bard”（Bard 助理）。在 Android 上推出之前，谷歌可能会放弃“Assistant”（Google 助理）的绰号，并将其重新命名为“Bard”。在 Google 应用 15.2 中，这一友好的介绍已被改写：“嗨！我是 Bard”。截至今天，绝大多数提及的“Bard 助理”已更新为“Bard”。这很可能表明谷歌不再将其下一代语音产品称为“Bard 助理”。此外，该公司直接将“Bard”称为“数字助理”，而不仅仅是 Google Assistant 的另一个版本。这次品牌重塑极大地提升了“Bard”的地位，同时大大削弱了 Assistant 的相关性。 via 匿名标签: #Bard #Google 频道: @GodlyNews1 投稿: @GodlyNewsBot

Google Assistant 很快就能“总结”网页

Google Assistant 很快就能“总结”网页生成式人工智能工具最直接的功能之一是能够将长文本片段总结为几个简短的要点。很快，您将能够使用 Google Assistant 来总结几乎所有网页。在最新的 Google 应用测试版（在版本 14.29）中，发现了一项正在开发中的工作，Google Assistant 正在准备一个新的“摘要”建议，当浏览网页时候调用谷歌助手，该建议将会出现。或者，您也可以通过说“总结一下”来直接询问。然而，目前该功能似乎不起作用，谷歌助手在被要求提供摘要时仅显示错误。希望我们会很快看到此功能正式上线。

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人