反盗版组织将知名AI训练数据集“Books3”下线。

反盗版组织将知名AI训练数据集“Books3”下线。丹麦反盗版组织RightsAlliance已经下线了知名的“Books3”数据集,该数据集被用来训练包括Meta在内的高知名度AI模型。出版商代表发送了删除通知,促使“TheEye”移除了这个包含了近20万本书籍的37GB数据集,该数据集已经在其上托管了数年。然而,复制品仍在其他地方出现。这个数据集包含了来自盗版网站Bibliotik的所有书籍,于2020年末首次在TheEye上,自那以后已被用来训练多个AI模型,包括Meta的模型。虽然最初且流传最广的Books3下载链接现已离线,但该数据集并未完全从网络上消失。ShawnPresser还提供了新的下载链接:——

相关推荐

封面图片

因使用盗版书训练 AI 模型,Meta、微软等巨头被被美国多名作家起诉

因使用盗版书训练AI模型,Meta、微软等巨头被被美国多名作家起诉据彭博社报道,美国多名作家近日向纽约联邦法院提起诉讼,指控Meta、微软等科技巨头未经许可使用他们的作品来训练AI模型。这一作家提交诉讼称Meta和微软采用了具有争议的“Books3”数据集来训练他们的大模型。注:作家团体声称,“Books3”数据集包含了成千上万本盗版书。与此同时,AI研究机构EleutherAI也收到了指控,因为该公司涉嫌向科技企业提供了“Books3”。投稿:@ZaiHuaBot频道:@TestFlightCN

封面图片

Hugging Face 开源“世界最大”AI 训练合成数据集 Cosmopedia

HuggingFace开源“世界最大”AI训练合成数据集CosmopediaHuggingFace近日开源了一款名为“Cosmopedia”的 AI 训练数据集,号称是目前世界上最大的合成数据集。该数据集内容均由Mixtral7b模型汇总生成,其中包含大量教科书、博客文章、故事小说、WikiHow教程,共计250亿个Token。HuggingFace表示,这次开源的数据集为0.1版本,未来团队还将持续更新该数据集,推进业界 AI 训练发展。项目地址:消息来源:线索:@ZaiHuabot投稿:@TNSubmbot频道:@TestFlightCN

封面图片

知名电子合同平台DocuSign使用客户数据训练AI

知名电子合同平台DocuSign使用客户数据训练AIDocuSign日前透露该公司使用客户提交的各种合同数据来训练人工智能模型,但DocuSign承诺数据会进行匿名化处理。DocuSign主要提供的是无纸化合同服务,各种协议和合同都可以通过DocuSign平台签署,包括电子签名等。按惯例这是要取得用户同意的,然而这些选项似乎都放在了使用协议里,但大多数用户可能没阅读使用协议就同意了。DocuSign没有提供如何退出数据被拿去训练AI的选项。线索:@ZaiHuabot投稿:@TNSubmbot频道:@TestFlightCN

封面图片

作者指责 OpenAI 使用盗版网站训练 ChatGPT

作者指责OpenAI使用盗版网站训练ChatGPT本周,作者和对OpenAI提起集体诉讼,指控ChatGPT的母公司侵犯版权并违反DMCA等。据作者称,ChatGPT未经许可就对其受版权保护的作品进行了部分培训。诉讼中提供的证据看似简单。作者从未授权OpenAI使用他们的作品,但ChatGPT可以提供他们作品的准确摘要。这些信息一定来自某个地方。虽然这些类型的指控并不新鲜,但本周的诉讼指控OpenAI使用盗版网站作为训练输入。这可能包括Z-Library,这是一个拥有数百万册盗版图书的影子图书馆。OpenAI尚未透露ChatGPT训练的数据集,但在一篇较旧的论文中引用了两个数据库;“书籍1”和“书籍2”。第一个包含大约63,000个标题,后者包含大约294,000个标题。这些数字孤立起来毫无意义。然而,作者指出,OpenAI一定使用了盗版资源,因为包含这么多书籍的合法数据库并不存在。唯一提供如此多材料的“基于互联网的图书语料库”只有是盗版图书网站,例如、、和。目前的诉讼将受到人工智能爱好者和权利人的密切关注。这可能会导致OpenAI不得不披露一些训练数据。——

封面图片

可令 AI 模型“输入狗生成猫”,黑客展示为训练数据集“下毒”的 Nightshade 工具

可令AI模型“输入狗生成猫”,黑客展示为训练数据集“下毒”的Nightshade工具日前有黑客展示了一款名为Nightshade的工具,该工具可在不破坏观感的情况下轻微修改图片,若有AI模型在训练时使用了这些被“下毒”的图片,模型生图结果便会被毁坏。据悉,Nightshade工具是一种专从提示词入手的攻击手法,号称“手法相对目前‘在提示词中加入触发字’的后门攻击法更简单”,不需介入模型的训练及部署等过程。Nightshade工具的作用,主要是轻微修改图片内容,当这些被修改的图片内容成为 AI模型训练数据后,整个 AI 模型就有可能被彻底破坏。黑客选择了StabilityAI的StableDiffusionV2、SDXL及DeepFloyd验证攻击效果。测试显示,只需要少量“下毒样本”就扰乱AI模型的文生图模型。黑客使用不到100张经过修改的“狗的照片”,便污染了SDXL模型已经养成的“狗”概念,使该模型在接受外界输入“生成狗的图片”提示后,反而生成了猫的图片。此外,黑客声称经过Nightshade工具“下毒”的图片难以辨别,因为该工具主要影响训练数据集的“特征空间”。来源:https://www.ithome.com/0/727/542.htm投稿:@ZaiHuaBot频道:@TestFlightCN

封面图片

知名电子合同平台DocuSign拿客户签署的机密合同去训练AI

知名电子合同平台DocuSign拿客户签署的机密合同去训练AI企业不需要使用传统方式打印合同、签订、寄送或者通过传真方式发送,使用DocuSign平台这种商务领域的东西确实可以被简化。使用OpenAI的GPT模型:DocuSign称该公司选择与微软合作,使用微软在云端提供的OpenAIGPT模型,也就是MicrosoftAzureOpenAI服务。使用GPT模型是用来帮助DocuSign训练自己的内部AI,而微软那边则向DocuSign承诺此类企业级AI服务不会收集客户的数据拿去训练GPT。DocuSign内部AI:该公司还使用客户提交的各种数据来训练DocuSign内部专有的AI,内部专有的AI指的是不会公开发布的那种AI。当然按惯例这是要取得用户同意的,然而这些选项似乎都放在使用协议里,估计大多数用户也没仔细阅读使用协议就已经同意。另一方面DocuSign强调使用客户的数据会先进行匿名化和去识别化,也就是这数据无法归因到特定的人或企业,以此来保证数据安全。但这种话说出来也就听听而已,毕竟合同这类数据,有些是具有独特文本内容的,这些内容本身就不应该被泄露。最后,DocuSign没有提供如何退出数据被拿去训练AI的选项。...PC版:https://www.cnbeta.com.tw/articles/soft/1421971.htm手机版:https://m.cnbeta.com.tw/view/1421971.htm

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人