OpenAI推出网络爬虫GPTBot，可自动收集信息改进AI模型

PA日报PayPal稳定币PYUSD合约地址已公布；OpenAI推出网络爬虫GPTBot，可自动收集信息改进AI模型

是一个网络爬虫，为AI模型训练提供数据收集#爬虫

Cloudflare为免费用户推出AI爬虫防护功能可自动识别和阻止抓取内容的爬虫

Cloudflare为免费用户推出AI爬虫防护功能可自动识别和阻止抓取内容的爬虫新推出的AI爬虫防护(AIScrapersandCrawlers)则是面向所有用户推出的一键设置，无论是免费还是订阅用户，只需要一键开启该选项后即可。CloudFlare称开启此选项后将会阻止机器人和爬虫抓取网站内容用于训练人工智能模型，这可以避免某些人工智能公司未经授权直接抓取网站内容。背后的运作原理暂时还不清楚，不过大概率是CloudFlare已经整理并识别常见的AI爬虫例如OpenAI的GPTBot，只要根据这些爬虫的名称进行拦截即可。CloudFlare为数以百万计的网站提供安全防护和分发服务，因此这项功能也确实有实际意义，毕竟有不少网站尤其是新闻媒体类的网站都是版权保护的。只不过问题在于爬虫识别本身也是防君子不防小人，像OpenAI这样公布自己的爬虫名称并表示会遵守robots.txt协议还好处理，问题是很多公司压根不遵守协议也不公布自己的爬虫名称，疯狂抓爬网站获取内容。这种情况下想要拦截就需要想一些对策了，比如对于高频抓爬的UA直接封禁，开启CloudFlare的真人验证等功能，防止各种爬虫绕过CloudFlare的AI爬虫防护。如何开启此功能：CloudFlare、控制台、转到对应网站、安全性、自动程序，开启AIScrapersandCrawlers即可。...PC版：https://www.cnbeta.com.tw/articles/soft/1436037.htm手机版：https://m.cnbeta.com.tw/view/1436037.htm

OpenAI主动公开自家爬虫，撇清窃取数据之嫌？OpenAI的网络爬虫GPTBot可以自动从整个互联网上抓取数据。OpenAI称

大型 AI 模型已可自动生成小型 AI 工具

大型AI模型已可自动生成小型AI工具来自麻省理工学院、加州大学多个校区和AI科技公司Aizip的科学家团队表示，他们已经能够让大型人工智能模型（如ChatGPT运行的模型）基本上实现自我复制。“目前，我们正在使用大型模型来构建小型模型，就像哥哥帮助弟弟进步一样。这是朝着AI自主进化迈出的第一步，”Aizip首席执行官YanSun称，“也是首次证明AI模型能够自主创造其他AI模型。”研究人员之一YubeiChen补充说：“我们的技术是一个突破，因为我们首次设计了完全自动化的流程，可以在没有人工干预的情况下设计一个AI模型。”来源，频道：@kejiqu群组：@kejiquchat

《纽约时报》封杀 OpenAI 的网络爬虫

《纽约时报》封杀OpenAI的网络爬虫《纽约时报》屏蔽了OpenAI的网络爬虫，这意味着OpenAI无法使用该出版物的内容来训练其人工智能模型。如果你查看《纽约时报》的robots.txt页面，就会发现《纽约时报》禁止使用OpenAI本月早些时候推出的爬虫GPTBot。根据互联网档案馆的WaybackMachine，纽约时报似乎早在8月17日就屏蔽了该爬虫。这一变化是在《纽约时报》本月初更新其服务条款以禁止使用其内容来训练人工智能模型之后发生的。据报道，《纽约时报》还在考虑对OpenAI侵犯知识产权的行为采取法律行动。此前莎拉·西尔弗曼和另外两位作家在7月份就OpenAI使用Books3训练ChatGPT而起诉该公司，Books3是一个用于训练ChatGPT的数据集，可能包含数千部受版权保护的作品，还有一位程序员兼律师马修·巴特里克指控该公司的数据抓取行为构成软件盗版侵权。——