ℹ封锁 AI 爬虫抓取网站资料！Cloudflare 推免费工具还揭露了 OpenAI 与字节跳动等 AI 的惊人「存取率」#

ℹ封锁 AI 爬虫抓取网站资料！Cloudflare 推免费工具还揭露了 OpenAI 与字节跳动等 AI 的惊人「存取率」# 对于网站而言这些可能因为爆量存取而导致接近于攻击的行为，促使了许多如媒体等网站对于 AI 服务如 OpenAI 等的存取采取阻挡的策略。继...

在Telegram中查看

相关推荐

ℹMacWhisper 透过 AI 来帮你语音转文字的免费工具，基于 OpenAI Whisper#

ℹMacWhisper 透过 AI 来帮你语音转文字的免费工具，基于 OpenAI Whisper# 现今虽然已经有不少语音转文字的免费工具，可以将开会、演讲等录音快速转成逐字稿，但大多都是手机 App 版本，如：雅婷逐字稿，线上工具也有，...

SFWOpenAI 因字节跳动使用 GPT 训练自己的 AI 模型而封锁其账号

SFW OpenAI 因字节跳动使用 GPT 训练自己的 AI 模型而封锁其账号 2023-12-16 22:11:44 by 超时空碎片 TikTok 母公司字节跳动一直秘密使用 OpenAI 的技术开发其代号为 Project Seed 的大模型。这种做法在 AI 领域通常被认为是令人尴尬的，也违反了 OpenAI 的服务条款禁止将其模型输出用于开发竞争的 AI 模型。字节跳动的内部文件证实，在大模型开发的几乎每一个阶段，该公司都依赖于 OpenAI API。字节跳动员工在内部通信平台飞书中甚至讨论了“数据脱敏”。字节跳动员工经常达到 OpenAI API 的限额。在报道发表之后，OpenAI 发言人表示已经封锁了字节跳动的账号。 https://slashdot.org/story/23/12/15/2346251/openai-suspends-bytedances-account-after-it-used-gpt-to-train-its-own-ai-model #人工智能 from Solidot

OpenAI 现允许网站阻止其网络爬虫抓取数据，避免数据被用于训练 AI 模型

OpenAI 现允许网站阻止其网络爬虫抓取数据，避免数据被用于训练 AI 模型 OpenAI 在其博客文章中表示，网站运营者可以通过在其网站的文件中禁止 GPTBot 的访问，或者通过屏蔽其 IP 地址，来阻止 GPTBot 从其网站上抓取数据。OpenAI 还表示，“使用 GPTBot 用户代理（user agent）抓取的网页可能会被用于改进未来的模型，并且会过滤掉那些需要付费访问、已知收集个人身份信息（PII）、或者有违反我们政策的文本的来源。”对于不符合排除标准的来源，“允许 GPTBot 访问您的网站可以帮助 AI 模型变得更加准确，并提高它们的通用能力和安全性。” 但是，这并不会追溯性地从 ChatGPT 的训练数据中删除之前从网站上抓取的内容。来源，，频道：@kejiqu 群组：@kejiquchat 投稿：@kejiqubot

ℹColor Pop AI 输入文字描述让 AI 绘图产生「著色图」的免费工具，想要什么图都能自己做#

ℹColor Pop AI 输入文字描述让 AI 绘图产生「著色图」的免费工具，想要什么图都能自己做# 过去我们曾介绍过不少提供免费著色图的网站，如：Crayola、Super Coloring、Kids Nurie 等等，虽然每个网站都有超...

OpenAI 现允许网站阻止其网络爬虫抓取数据，避免数据被用于训练 AI 模型

OpenAI 现允许网站阻止其网络爬虫抓取数据，避免数据被用于训练 AI 模型 OpenAI 在其博客文章中表示，网站运营者可以通过在其网站的 Robots.txt 文件中禁止 GPTBot 的访问，或者通过屏蔽其 IP 地址，来阻止 GPTBot 从其网站上抓取数据。 GPTBot是OpenAI的网络爬虫，可以通过以下用户代理和字符串来识别。 User agent token: GPTBot Full user-agent string: Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; GPTBot/1.0; +https://openai.com/gptbot) 禁止 GPTBot User-agent: GPTBot Disallow: / 自定义 GPTBot 访问 User-agent: GPTBot Allow: /directory-1/ Disallow: /directory-2/ IP 出口范围 40.83.2.64/28

Cloudflare开始免费提供阻止AI机器人的一键式解决方案

Cloudflare开始免费提供阻止AI机器人的一键式解决方案就在上周，Akamai 的一份报告再次证实，机器人在整个网络流量中的占比非常大，人工智能让网络犯罪分子和不诚实的企业更容易得手。使用 Cloudflare 提供的内容交付和防火墙服务的网站和内容创建者现在又多了一个简单易用的解决方案，可以遏制大科技公司在没有明确授权的情况下释放机器人和采集网站内容的能力。大多数流行的人工智能公司（如 OpenAI）已经开始提供一种方法，通过在服务器上的robots.txt 文件中添加自定义规则来阻止爬行机器人。然而，这些解决方案只有在机器人被设计为真正遵守这些规则时才会起作用问题在于：1）并非所有公司都愿意遵守 robots.txt 指令；2）许多人工智能公司在提供这种"选择退出"之前就已经放弃了一切可能Cloudflare 表示，其绝大多数客户（多达 85%）已经选择以这种方式阻止人工智能机器人。Cloudflare 提供的新一键式解决方案既适用于免费客户，也适用于付费客户，它似乎可以有效打击不遵守 robots.txt 规则的人工智能机器人。Cloudflare 可以识别机器人，并为每个机器人创建单独的指纹，而且它发誓会随着时间的推移自动更新其指纹数据库。作为互联网上最大的 CDN 网络之一，Cloudflare 可以从平均每秒超过 5700 万次的网络请求中推断出数据。该公司列出了一份当今网络上最活跃的人工智能机器人名单，其中 Bytespider、GPTBot 和 ClaudeBot 是访问量最大的三个机器人。Bytespider 由中国公司和 TikTok 所有者字节跳动运营，很可能使用从 40% 受 Cloudflare 保护的网站上抓取的内容来训练其大型语言模型。GPTBot 正在访问 35% 的网站，并收集数据用于训练 ChatGPT 和 OpenAI 提供的其他生成式人工智能服务。Cloudflare 表示，ClaudeBot 最近的请求量增加了 11%，并被用于训练 Anthropic 开发的同名 LLM 算法系列。虽然通过静态分析可以更容易地识别这些众所周知的机器人，但 Cloudflare 还可以检测到假装成真人浏览网页的机器人。该公司开发了自己的全球机器学习模型，基本上是利用人工智能技术来识别假装成其他东西的人工智能机器人。Cloudflare表示，其模型能够"适当标记"来自躲避性人工智能机器人的流量，未来将用于检测新的刮擦工具和假冒机器人，而无需先生成新的机器人指纹。 ... PC版：手机版：

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人