研究称48%热门新闻网站屏蔽OpenAI爬虫

研究称48%热门新闻网站屏蔽OpenAI爬虫 由于缺乏明确的监管框架来管理生成式人工智能对受版权保护的材料的使用,许多大型出版商自行解决问题,将人工智能公司告上法庭,更新服务条款,阻止爬虫或达成交易以保护优质内容,数据和收入。该研究将媒体分为三类:传统印刷出版物、电视和广播电台以及数字媒体。到 2023 年底,超过二分之一 (57%) 的传统印刷出版物网站(例如《纽约时报》)将屏蔽 OpenAI 的爬虫程序,而电视和广播公司的这一比例为 48%,数字媒体的比例为 31%。同样,32% 的印刷媒体屏蔽了 Google 的抓取工具,而 19% 的广播公司和 17% 的数字媒体也采取了同样的做法。Gartner 副总裁、杰出分析师安德鲁·弗兰克 (Andrew Frank) 表示:路透社的研究强调了生成式人工智能面临的一个根本挑战:它依赖于真实的人生成的真实内容,而这些人将其视为对其生计的威胁。与此同时,康奈尔大学最近的一项研究发现,当新的人工智能模型根据先前模型而不是人类输入的数据进行训练时,它们往往会模型崩溃或退化,导致生成的输出中错误和错误信息增加。“这表明大型语言模型开发人员需要找到方法来补偿那些创建或报告真实内容的人,这不仅是为了社会,也是为了他们自己的商业利益。”弗兰克说。部署网站爬虫的原因有很多。像Google的 Googlebot 这样的爬虫会在这家科技巨头的搜索结果中索引出版商网站。与此同时,OpenAI 的爬虫 GPTBot 通过互联网收集数据来训练其大型语言模型,例如 ChatGPT。这使得人工智能工具能够生成准确的同步数据新闻出版商尤其具有独特的优势来提供这种能力:GoogleAI的权重比优质出版商的内容高出5 到 100倍。人工智能驱动的解决方案正在成为传统搜索引擎的替代品。根据这项研究,与南半球的新闻媒体相比,北半球的新闻媒体更倾向于阻止人工智能爬虫。在美国,79% 的顶级在线新闻网站屏蔽了 OpenAI,而在墨西哥和波兰,只有 20% 的网站这样做了。与此同时,德国 60% 的新闻网站屏蔽了Google的爬虫,而波兰和西班牙则有 7% 的新闻网站屏蔽了Google的爬虫。几乎所有屏蔽 Google AI 的网站也屏蔽了 OpenAI(97%)。尽管该研究没有对这一趋势提供明确的解释,但它表明 OpenAI 在 Google 之前发布其爬虫程序可能对此有所贡献。与此同时,在大多数国家/地区,一些出版商在这两套爬虫程序发布后立即对其进行了屏蔽。OpenAI 于去年 8 月初推出了人工智能爬虫,Google也于 9 月紧随其后。根据这项研究,一旦做出屏蔽决定,没有任何网站会改变立场,解除对 OpenAI 或 Google AI 爬虫的屏蔽。 ... PC版: 手机版:

相关推荐

封面图片

研究:近一半热门新闻网站屏蔽了 OpenAI 爬虫

研究:近一半热门新闻网站屏蔽了 OpenAI 爬虫 值得注意的是,在大多数国家,一些发布商在爬虫刚发布时就立即屏蔽了它们。OpenAI 于去年 8 月初启动了其人工智能爬虫,谷歌随后于 9 月份效仿。研究还表明,一旦做出屏蔽决定后,没有一家网站撤销对 OpenAI 或谷歌人工智能爬虫的屏蔽。

封面图片

Google似乎正在向一些新闻网站支付AI撰写文章的费用

Google似乎正在向一些新闻网站支付AI撰写文章的费用 这已经不是我们第一次听说了。去年,Google被发现正在测试一款名为"Genesis"的人工智能工具,该工具能够帮助我们记者撰写新闻文章,而现在一份新的报告显示,这家搜索引擎巨头已经开始向小型出版商支付五位数的费用,以便他们能够继续尝试这款用于出版的生成式人工智能工具。另外值得注意的是,Google人工智能项目的这一试验目前规模较小,但确实需要媒体配合定期使用。作为协议的一部分,该公司希望出版商使用这一工具每天发布三篇文章,每周发布一份时事通讯,每月发布一次营销活动,这一切都是由人工智能完成的。Google平台的工作方式是从各个网站获取所有内容,然后将其整合到一个仪表板上。然后,这些内容会呈现给人工编辑,后者可以使用人工智能工具将仪表板上的任何新文章转化为新闻文章。最后一步是编辑在文章上线前对其进行微调。为了保持这项交易的相关性,新闻机构应该在 12 个月内发布这些由人工智能生成的文章,并向Google提供分析和反馈,消息来源称,这一平台目前可供一些小型媒体使用。另外需要注意的是,目前使用该工具的网站无需将这些文章标记为人工智能生成的。此外,内容聚合网站也不会收到通知,告知Google的工具正在使用它们的材料生成基于人工智能的故事和文章。 ... PC版: 手机版:

封面图片

《纽约时报》封杀 OpenAI 的网络爬虫

《纽约时报》封杀 OpenAI 的网络爬虫 《纽约时报》屏蔽了 OpenAI 的网络爬虫,这意味着 OpenAI 无法使用该出版物的内容来训练其人工智能模型。 如果你查看《纽约时报》的 robots.txt 页面,就会发现《纽约时报》禁止使用 OpenAI 本月早些时候推出的爬虫 GPTBot。根据互联网档案馆的 Wayback Machine,纽约时报似乎早在 8 月 17 日就屏蔽了该爬虫。 这一变化是在《纽约时报》本月初更新其服务条款以禁止使用其内容来训练人工智能模型之后发生的。据报道,《纽约时报》还在考虑对 OpenAI侵犯知识产权的行为采取法律行动。 此前莎拉·西尔弗曼和另外两位作家在 7 月份就 OpenAI 使用 Books3 训练 ChatGPT 而起诉该公司,Books3 是一个用于训练 ChatGPT 的数据集,可能包含数千部受版权保护的作品,还有一位程序员兼律师马修·巴特里克指控该公司的数据抓取行为构成软件盗版侵权。

封面图片

OpenAI 和 Anthropic 无视了防止机器人抓取在线内容的既定规则

OpenAI 和 Anthropic 无视了防止机器人抓取在线内容的既定规则 据《商业内幕》获悉,世界上最大的两家人工智能公司无视媒体出版商要求其停止免费抓取其网络内容用于模型训练的请求。据了解 TollBit 调查情况的人士以及另一位知情人士称,OpenAI 和 Anthropic 要么无视、要么规避了名为 robots.txt 的既定网络规则,该规则阻止自动抓取网站内容。TollBit 是一家致力于在出版商和人工智能公司之间促成付费许可交易的初创公司,该公司发现有多家人工智能公司存在这种行为,并在周五的信函中通知了某些大型出版商,信函中没有透露被指责规避规则的人工智能公司名字。

封面图片

研究:ChatGPT 的新闻搜索结果经常不准确

研究:ChatGPT 的新闻搜索结果经常不准确 根据哥伦比亚大学 Tow 数字新闻中心研究人员的测试,OpenAI 的 ChatGPT 搜索工具在准确性上存在一些问题。OpenAI 于今年10月向订阅用户推出了该工具,称其可以快速提供答案,并附带相关网页来源链接。然而研究显示,ChatGPT 搜索在识别文章引用时表现不佳,即使这些引文来自与 OpenAI 有数据共享安排的出版商。研究人员测试了二十家出版商的200条引文,其中40条来自禁止 OpenAI 爬虫访问的网站。然而,聊天机器人还是自信地用虚假信息进行了回复。测试结果显示,ChatGPT 的153次回答完全或部分错误,仅有七次明确表示无法准确回答。 TheVerge-电报频道- #娟姐新闻:@juanjienews

封面图片

OpenAI与新闻集团的交易授权《华尔街日报》、《纽约邮报》等媒体的内容

OpenAI与新闻集团的交易授权《华尔街日报》、《纽约邮报》等媒体的内容 这份多年期协议使 OpenAI 可以访问新闻集团出版物中的最新文章和存档文章,用于人工智能培训和回答用户问题。这是OpenAI与美联社、《金融时报》、《人物 》出版商Dotdash Meredith和Politico所有者Axel Springer等大型媒体公司和媒体达成的一系列许可协议中的最新一例。一些媒体反而对 OpenAI 提起了诉讼,如《纽约时报》、《纽约每日新闻》、《芝加哥论坛报》和《截击》,他们指控 OpenAI 和微软在他们的作品上训练人工智能模型,侵犯了版权。新闻集团称将借此与 OpenAI "分享新闻专业知识",以"确保最高的新闻标准"。 ... PC版: 手机版:

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人