ℹ封锁 AI 爬虫抓取网站资料！Cloudflare 推免费工具还揭露了 OpenAI 与字节跳动等 AI 的惊人「存取率」#

ℹ封锁 AI 爬虫抓取网站资料！Cloudflare 推免费工具还揭露了 OpenAI 与字节跳动等 AI 的惊人「存取率」# 对于网站而言这些可能因为爆量存取而导致接近于攻击的行为，促使了许多如媒体等网站对于 AI 服务如 OpenAI 等的存取采取阻挡的策略。继...

在Telegram中查看

相关推荐

ℹMacWhisper 透过 AI 来帮你语音转文字的免费工具，基于 OpenAI Whisper#

ℹMacWhisper 透过 AI 来帮你语音转文字的免费工具，基于 OpenAI Whisper# 现今虽然已经有不少语音转文字的免费工具，可以将开会、演讲等录音快速转成逐字稿，但大多都是手机 App 版本，如：雅婷逐字稿，线上工具也有，...

SFWOpenAI 因字节跳动使用 GPT 训练自己的 AI 模型而封锁其账号

SFW OpenAI 因字节跳动使用 GPT 训练自己的 AI 模型而封锁其账号 2023-12-16 22:11:44 by 超时空碎片 TikTok 母公司字节跳动一直秘密使用 OpenAI 的技术开发其代号为 Project Seed 的大模型。这种做法在 AI 领域通常被认为是令人尴尬的，也违反了 OpenAI 的服务条款禁止将其模型输出用于开发竞争的 AI 模型。字节跳动的内部文件证实，在大模型开发的几乎每一个阶段，该公司都依赖于 OpenAI API。字节跳动员工在内部通信平台飞书中甚至讨论了“数据脱敏”。字节跳动员工经常达到 OpenAI API 的限额。在报道发表之后，OpenAI 发言人表示已经封锁了字节跳动的账号。 https://slashdot.org/story/23/12/15/2346251/openai-suspends-bytedances-account-after-it-used-gpt-to-train-its-own-ai-model #人工智能 from Solidot

OpenAI 现允许网站阻止其网络爬虫抓取数据，避免数据被用于训练 AI 模型

OpenAI 现允许网站阻止其网络爬虫抓取数据，避免数据被用于训练 AI 模型 OpenAI 在其博客文章中表示，网站运营者可以通过在其网站的文件中禁止 GPTBot 的访问，或者通过屏蔽其 IP 地址，来阻止 GPTBot 从其网站上抓取数据。OpenAI 还表示，“使用 GPTBot 用户代理（user agent）抓取的网页可能会被用于改进未来的模型，并且会过滤掉那些需要付费访问、已知收集个人身份信息（PII）、或者有违反我们政策的文本的来源。”对于不符合排除标准的来源，“允许 GPTBot 访问您的网站可以帮助 AI 模型变得更加准确，并提高它们的通用能力和安全性。” 但是，这并不会追溯性地从 ChatGPT 的训练数据中删除之前从网站上抓取的内容。来源，，频道：@kejiqu 群组：@kejiquchat 投稿：@kejiqubot

ℹColor Pop AI 输入文字描述让 AI 绘图产生「著色图」的免费工具，想要什么图都能自己做#

ℹColor Pop AI 输入文字描述让 AI 绘图产生「著色图」的免费工具，想要什么图都能自己做# 过去我们曾介绍过不少提供免费著色图的网站，如：Crayola、Super Coloring、Kids Nurie 等等，虽然每个网站都有超...

OpenAI 现允许网站阻止其网络爬虫抓取数据，避免数据被用于训练 AI 模型

OpenAI 现允许网站阻止其网络爬虫抓取数据，避免数据被用于训练 AI 模型 OpenAI 在其博客文章中表示，网站运营者可以通过在其网站的 Robots.txt 文件中禁止 GPTBot 的访问，或者通过屏蔽其 IP 地址，来阻止 GPTBot 从其网站上抓取数据。 GPTBot是OpenAI的网络爬虫，可以通过以下用户代理和字符串来识别。 User agent token: GPTBot Full user-agent string: Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; GPTBot/1.0; +https://openai.com/gptbot) 禁止 GPTBot User-agent: GPTBot Disallow: / 自定义 GPTBot 访问 User-agent: GPTBot Allow: /directory-1/ Disallow: /directory-2/ IP 出口范围 40.83.2.64/28

涉嫌违规抓取网站数据亚马逊AWS调查Perplexity AI

涉嫌违规抓取网站数据亚马逊AWS调查Perplexity AI robots.txt协议作为一种网络标准，由网站管理员设置，旨在告知网络爬虫哪些页面可以被访问，哪些则禁止抓取。尽管遵守该协议是自愿的，但长期以来，各大搜索引擎和知名公司的爬虫程序普遍遵循这一标准。然而，近期有指控称，Perplexity AI的爬虫程序却选择了忽视。根据《Wired》杂志的报道，其调查团队发现了一台托管在AWS服务器上的虚拟机，该机器使用的IP地址为44.221.181.252，在过去三个月内多次访问并抓取了Condé Nast旗下资产的内容，包括《Wired》杂志本身。此外，《卫报》、《福布斯》和《纽约时报》等媒体也报告了类似情况，指出该IP地址多次访问其出版物内容。为验证Perplexity AI是否确实在抓取内容，《Wired》杂志将文章标题或简短描述输入Perplexity的聊天机器人进行测试。结果显示，聊天机器人返回的内容与原文措辞高度相似，且引用极少，进一步加剧了对其违规行为的质疑。面对指控，Perplexity AI方面表示已回应亚马逊的询问，并否认其爬虫程序故意绕过robots.txt协议。公司发言人Sara Platnick强调，PerplexityBot在AWS上运行时尊重robots.txt文件，并确认公司控制的服务不会违反AWS服务条款进行爬虫活动。然而，她也承认，在特定情况下，即用户输入特定URL时，PerplexityBot会忽略robots.txt协议。Perplexity AI首席执行官Aravind Srinivas则指出，公司确实使用了第三方网络爬虫程序，而Wired所识别的违规爬虫可能正是其中之一。他否认公司“无视机器人排除协议并就此撒谎”，但承认公司在数据处理和引用来源方面存在改进空间。值得注意的是，路透社最近的一份报告指出，Perplexity AI并非唯一一家绕过robots.txt文件收集内容以训练大型语言模型的人工智能公司。然而，亚马逊的调查目前似乎仅针对Perplexity AI展开。亚马逊发言人向《连线》杂志表示，AWS服务条款明确禁止客户使用其服务进行任何非法活动，且客户有责任遵守条款和所有适用法律。此次调查旨在确认Perplexity AI是否存在违规行为，并根据调查结果采取相应措施。 ... PC版：手机版：

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人

相关推荐

ℹMacWhisper 透过 AI 来帮你语音转文字的免费工具，基于 OpenAI Whisper#

SFWOpenAI 因字节跳动使用 GPT 训练自己的 AI 模型而封锁其账号

OpenAI 现允许网站阻止其网络爬虫抓取数据，避免数据被用于训练 AI 模型

ℹColor Pop AI 输入文字描述让 AI 绘图产生「著色图」的免费工具，想要什么图都能自己做#

OpenAI 现允许网站阻止其网络爬虫抓取数据，避免数据被用于训练 AI 模型

涉嫌违规抓取网站数据 亚马逊AWS调查Perplexity AI

涉嫌违规抓取网站数据亚马逊AWS调查Perplexity AI