反盗版组织将知名AI训练数据集“Books3”下线。

反盗版组织将知名AI训练数据集“Books3”下线。丹麦反盗版组织RightsAlliance已经下线了知名的“Books3”数据集，该数据集被用来训练包括Meta在内的高知名度AI模型。出版商代表发送了删除通知，促使“TheEye”移除了这个包含了近20万本书籍的37GB数据集，该数据集已经在其上托管了数年。然而，复制品仍在其他地方出现。这个数据集包含了来自盗版网站Bibliotik的所有书籍，于2020年末首次在TheEye上，自那以后已被用来训练多个AI模型，包括Meta的模型。虽然最初且流传最广的Books3下载链接现已离线，但该数据集并未完全从网络上消失。ShawnPresser还提供了新的下载链接：——

在Telegram中查看

相关推荐

因使用盗版书训练 AI 模型，Meta、微软等巨头被被美国多名作家起诉

因使用盗版书训练AI模型，Meta、微软等巨头被被美国多名作家起诉据彭博社报道，美国多名作家近日向纽约联邦法院提起诉讼，指控Meta、微软等科技巨头未经许可使用他们的作品来训练AI模型。这一作家提交诉讼称Meta和微软采用了具有争议的“Books3”数据集来训练他们的大模型。注：作家团体声称，“Books3”数据集包含了成千上万本盗版书。与此同时，AI研究机构EleutherAI也收到了指控，因为该公司涉嫌向科技企业提供了“Books3”。投稿：@ZaiHuaBot频道：@TestFlightCN

Hugging Face 开源“世界最大”AI 训练合成数据集 Cosmopedia

HuggingFace开源“世界最大”AI训练合成数据集CosmopediaHuggingFace近日开源了一款名为“Cosmopedia”的 AI 训练数据集，号称是目前世界上最大的合成数据集。该数据集内容均由Mixtral7b模型汇总生成，其中包含大量教科书、博客文章、故事小说、WikiHow教程，共计250亿个Token。HuggingFace表示，这次开源的数据集为0.1版本，未来团队还将持续更新该数据集，推进业界 AI 训练发展。项目地址：消息来源：线索：@ZaiHuabot投稿：@TNSubmbot频道：@TestFlightCN

知名电子合同平台DocuSign使用客户数据训练AI

知名电子合同平台DocuSign使用客户数据训练AIDocuSign日前透露该公司使用客户提交的各种合同数据来训练人工智能模型，但DocuSign承诺数据会进行匿名化处理。DocuSign主要提供的是无纸化合同服务，各种协议和合同都可以通过DocuSign平台签署，包括电子签名等。按惯例这是要取得用户同意的，然而这些选项似乎都放在了使用协议里，但大多数用户可能没阅读使用协议就同意了。DocuSign没有提供如何退出数据被拿去训练AI的选项。线索：@ZaiHuabot投稿：@TNSubmbot频道：@TestFlightCN

作者指责 OpenAI 使用盗版网站训练 ChatGPT

作者指责OpenAI使用盗版网站训练ChatGPT本周，作者和对OpenAI提起集体诉讼，指控ChatGPT的母公司侵犯版权并违反DMCA等。据作者称，ChatGPT未经许可就对其受版权保护的作品进行了部分培训。诉讼中提供的证据看似简单。作者从未授权OpenAI使用他们的作品，但ChatGPT可以提供他们作品的准确摘要。这些信息一定来自某个地方。虽然这些类型的指控并不新鲜，但本周的诉讼指控OpenAI使用盗版网站作为训练输入。这可能包括Z-Library，这是一个拥有数百万册盗版图书的影子图书馆。OpenAI尚未透露ChatGPT训练的数据集，但在一篇较旧的论文中引用了两个数据库；“书籍1”和“书籍2”。第一个包含大约63,000个标题，后者包含大约294,000个标题。这些数字孤立起来毫无意义。然而，作者指出，OpenAI一定使用了盗版资源，因为包含这么多书籍的合法数据库并不存在。唯一提供如此多材料的“基于互联网的图书语料库”只有是盗版图书网站，例如、、和。目前的诉讼将受到人工智能爱好者和权利人的密切关注。这可能会导致OpenAI不得不披露一些训练数据。——

可令 AI 模型“输入狗生成猫”，黑客展示为训练数据集“下毒”的 Nightshade 工具

可令AI模型“输入狗生成猫”，黑客展示为训练数据集“下毒”的Nightshade工具日前有黑客展示了一款名为Nightshade的工具，该工具可在不破坏观感的情况下轻微修改图片，若有AI模型在训练时使用了这些被“下毒”的图片，模型生图结果便会被毁坏。据悉，Nightshade工具是一种专从提示词入手的攻击手法，号称“手法相对目前‘在提示词中加入触发字’的后门攻击法更简单”，不需介入模型的训练及部署等过程。Nightshade工具的作用，主要是轻微修改图片内容，当这些被修改的图片内容成为 AI模型训练数据后，整个 AI 模型就有可能被彻底破坏。黑客选择了StabilityAI的StableDiffusionV2、SDXL及DeepFloyd验证攻击效果。测试显示，只需要少量“下毒样本”就扰乱AI模型的文生图模型。黑客使用不到100张经过修改的“狗的照片”，便污染了SDXL模型已经养成的“狗”概念，使该模型在接受外界输入“生成狗的图片”提示后，反而生成了猫的图片。此外，黑客声称经过Nightshade工具“下毒”的图片难以辨别，因为该工具主要影响训练数据集的“特征空间”。来源：https://www.ithome.com/0/727/542.htm投稿：@ZaiHuaBot频道：@TestFlightCN

知名电子合同平台DocuSign拿客户签署的机密合同去训练AI

知名电子合同平台DocuSign拿客户签署的机密合同去训练AI企业不需要使用传统方式打印合同、签订、寄送或者通过传真方式发送，使用DocuSign平台这种商务领域的东西确实可以被简化。使用OpenAI的GPT模型：DocuSign称该公司选择与微软合作，使用微软在云端提供的OpenAIGPT模型，也就是MicrosoftAzureOpenAI服务。使用GPT模型是用来帮助DocuSign训练自己的内部AI，而微软那边则向DocuSign承诺此类企业级AI服务不会收集客户的数据拿去训练GPT。DocuSign内部AI：该公司还使用客户提交的各种数据来训练DocuSign内部专有的AI，内部专有的AI指的是不会公开发布的那种AI。当然按惯例这是要取得用户同意的，然而这些选项似乎都放在使用协议里，估计大多数用户也没仔细阅读使用协议就已经同意。另一方面DocuSign强调使用客户的数据会先进行匿名化和去识别化，也就是这数据无法归因到特定的人或企业，以此来保证数据安全。但这种话说出来也就听听而已，毕竟合同这类数据，有些是具有独特文本内容的，这些内容本身就不应该被泄露。最后，DocuSign没有提供如何退出数据被拿去训练AI的选项。...PC版：https://www.cnbeta.com.tw/articles/soft/1421971.htm手机版：https://m.cnbeta.com.tw/view/1421971.htm

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人