Google呼吁更新"robots.txt"以适应新兴AI场景

Google呼吁更新"robots.txt"以适应新兴AI场景Google副总裁在博客中表示，随着新技术的出现，网络社区有必要发展支持网络未来发展的标准和协议。Robots.txt，一个于近30年前由社区主导的创建的网络标准，已被证明是网络出版商控制搜索引擎抓取其内容的一种简单透明的方式。（Robots.txt是一个文本文件，用于控制搜索引擎爬虫在网站上的抓取行为。其本身是非强制性的，不具备法律效应。）他们认为现在应当为网络和人工智能社区探索其他机器可读方法，以便网络发布者选择和控制新兴人工智能和研究用例，并将为此启动。消息来源：投稿：@ZaiHuaBot频道：@TestFlightCN

在Telegram中查看

相关推荐

Reddit 更新 robots.txt 文件加强爬虫限制

Reddit更新robots.txt文件加强爬虫限制社交平台Reddit周二宣布，在接下来的几周内，将更新其机器人排除协议(robots.txt文件)，该协议提供有关该平台如何允许和不允许第三方抓取Reddit内容的高级说明。除了更新robots.txt文件外，Reddit还将继续对未知的机器人和抓取工具访问该平台网站进行速率限制和/或阻止。此更新不应影响绝大多数使用和享受Reddit的用户。善意的行为者，如研究人员和互联网档案馆等组织，仍将能够出于非商业目的访问Reddit内容。——

小红书禁止所有搜索引擎抓取其内容只能通过站内手动

小红书禁止所有搜索引擎抓取其内容只能通过站内手动搜索目前并不清楚小红书为什么禁止搜索引擎抓取内容，从SEO角度来说，允许搜索引擎抓取有助于给小红书带来更多流量，毕竟现在百度都索引了7亿多个网页。而且小红书是去年4月修改的，所以估计也不是因为防止被抓取内容训练AI吧？但小红书目前的内容库拿去训练AI确实很有价值，毕竟巨量文字和图片内容。不过robots.txt文件只是君子协定，属于防君子不妨小人的那种，除了会导致用户无法从搜索引擎直接查询小红书内容外，其实帮助也不大，毕竟其他非搜索引擎的爬虫也会继续抓取内容，小红书肯定也做了反爬措施了。现在国内的网站禁止搜索引擎抓取已经是个很常见的事情，或者专门预留一些层级目录供搜索引擎抓取想要获得一些流量，更有甚者甚至别说搜索引擎了，就连正常的用户访问也会被拦截，必须注册账号登录后才能继续访问，这显然不是一个好事情。附小红书2023年4月2日的robots.txt信息：下面是小红书最新的robots.txt信息：...PC版：https://www.cnbeta.com.tw/articles/soft/1425509.htm手机版：https://m.cnbeta.com.tw/view/1425509.htm

Google为内容供应商提供了一个开关使其可以选择不成为AI训练数据

Google为内容供应商提供了一个开关使其可以选择不成为AI训练数据该公司称，Google-Extended将让发布商"管理其网站是否有助于改进Bard和VertexAI生成API"，并补充说，网络发布商可以使用切换键"控制对网站内容的访问"。Google今年7月证实，它正在利用从网上搜刮的公开数据训练其人工智能聊天机器人Bard。Google-Extended可通过robots.txt（网站根目录的文本文件，用于告知网络爬虫是否可以访问某些网站）使用。Google指出，"随着人工智能应用的扩展"，它将继续探索"更多机器可读的方法，为网络发布者提供选择和控制"，并将很快分享更多信息。目前，许多网站已经开始屏蔽OpenAI用来抓取数据和训练ChatGPT的网络爬虫，其中包括《纽约时报》、CNN、路透社和Medium。不过，如何屏蔽Google一直是个问题。毕竟，网站不能完全关闭Google的爬虫，否则就无法在搜索中被收录。这使得《纽约时报》等一些网站通过更新服务条款，禁止公司使用其内容训练人工智能，从而从法律上封杀Google。...PC版：https://www.cnbeta.com.tw/articles/soft/1387003.htm手机版：https://m.cnbeta.com.tw/view/1387003.htm

Google宣布"移动优先"索引工作在近7年后终于完成

Google宣布"移动优先"索引工作在近7年后终于完成需要提醒大家的是，Google在6年半前就开始采用移动优先索引，在发布了一个又一个截止日期后，Google最终取消了截止日期。早在2016年11月，Google就首次推出了移动优先索引，到2018年12月，Google搜索结果中的一半网站都来自移动优先索引。简单地说，移动优先索引就是Google将从移动浏览器的视角抓取你的网站，并使用该移动版本进行索引和排名。Google在2020年3月初，也就是全球大部分地区开始COVID-19大流行引发的社交封锁之前宣布所有网站切换到移动优先索引的截止日期为2020年9月。当时，Google表示："为了简化，我们将从2020年9月开始对所有网站切换到移动优先索引。随后在2020年7月，Google再次将最后期限推迟到2021年3月。"但在今年5月份，Google实质上已经完成了网站移动索引的切换，因此现在宣布"已经完成"有点令人困惑。"有一小部分网站根本无法在移动设备上运行"。Google解释说，这些网站"主要是页面向所有移动用户显示错误，移动版网站被robots.txt屏蔽，而桌面版网站允许抓取，或者移动网站上的所有页面都重定向到主页"。Google表示，这类问题是搜索引擎无法解决的。"目前将继续尝试用我们传统的桌面版Googlebot爬虫抓取这些网站，并将每年对名单进行几次重新评估"。Google还将减少传统桌面Googlebot的抓取次数。SearchConsole的变化方面，Google还宣布将关闭Google搜索控制台设置页面中的索引爬虫信息。Google解释说："由于所有在移动设备上运行的网站现在都主要由我们的移动爬虫抓取，因此不再需要这些信息。"我们为什么关心这个问题？因为移动优先索引现在已经真正完成，这意味着Google很快将完全停止通过其传统的桌面爬虫进行抓取。...PC版：https://www.cnbeta.com.tw/articles/soft/1393581.htm手机版：https://m.cnbeta.com.tw/view/1393581.htm

Twitter (X) 现在屏蔽 Bing 搜索引擎

Twitter(X)现在屏蔽Bing搜索引擎马斯克的Twitter(现在改名X)现在阻止必应搜索引擎，具体来说是阻止Bingbot爬取和访问Twitter[.]com平台上发布的内容。Twitter特别在其robots.txt文件中添加了一项指令，以禁止Bingbot爬取其平台上的内容。事实上，现在在Bing搜索引擎上使用“”命令仅显示104,000个TwitterURL。但对于Google搜索引擎，使用该命令会显示4.22亿个URL。早在7月份，Twitter就曾封锁过Google，导致Twitter在Google搜索中的可见度大幅下降。几天后，Twitter撤销了这一更改。——

基于AI Summer的科学博客模板

基于AISummer的科学博客模板模板基于theaisummer.com，支持多种必要的组件，可用于科学博客，比如：LatexrenderingCodeblockswithhighlightingReferencesandcitationsEmbedgifsandvideosInteractivecomponentsTableofcontentsSimilararticles其他重要功能：能够按主题过滤和显示帖子可定制的作者页面100%响应可以使用标准React代码或使用Markdown创建页面使用flexsearch使用本地索引进行搜索准备好搜索引擎优化响应式图像和图像预处理管道谷歌分析和标签管理器robots.txt生成XML提要生成站点地图生成#科研#模板

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人