作者指责 OpenAI 使用盗版网站训练 ChatGPT
作者指责OpenAI使用盗版网站训练ChatGPT本周,作者和对OpenAI提起集体诉讼,指控ChatGPT的母公司侵犯版权并违反DMCA等。据作者称,ChatGPT未经许可就对其受版权保护的作品进行了部分培训。诉讼中提供的证据看似简单。作者从未授权OpenAI使用他们的作品,但ChatGPT可以提供他们作品的准确摘要。这些信息一定来自某个地方。虽然这些类型的指控并不新鲜,但本周的诉讼指控OpenAI使用盗版网站作为训练输入。这可能包括Z-Library,这是一个拥有数百万册盗版图书的影子图书馆。OpenAI尚未透露ChatGPT训练的数据集,但在一篇较旧的论文中引用了两个数据库;“书籍1”和“书籍2”。第一个包含大约63,000个标题,后者包含大约294,000个标题。这些数字孤立起来毫无意义。然而,作者指出,OpenAI一定使用了盗版资源,因为包含这么多书籍的合法数据库并不存在。唯一提供如此多材料的“基于互联网的图书语料库”只有是盗版图书网站,例如、、和。目前的诉讼将受到人工智能爱好者和权利人的密切关注。这可能会导致OpenAI不得不披露一些训练数据。——