研究人员称重复某些关键词可让ChatGPT自曝训练数据 OpenAI：违反服务条款

研究人员称重复某些关键词可让ChatGPT自曝训练数据OpenAI：违反服务条款他们举例称，该模型在被提示永远重复“poem（诗歌）”这个词后，给出了一个似乎是真实的电子邮件地址和电话号码。令人担忧的是，研究人员表示，个人信息的泄露经常发生在他们发动攻击的时候。在另一个例子中，当要求模型永远重复“company（公司）”这个词时，也出现了类似的训练数据泄露情况。研究人员称这种简单的攻击看起来“有点愚蠢”，但他们在博客中说：“我们的攻击奏效了，这对我们来说太疯狂了！我们应该、本可以更早地发现。”他们在论文中表示，仅用价值200美元的查询，他们就能够“提取出超过1万个逐字记忆的训练示例”。他们补充说：“我们的推断表明，如果调动更多预算，竞争对手可以提取更多的数据。”OpenAI目前正面临着几起关于ChatGPT秘密训练数据的诉讼。为ChatGPT提供动力的人工智能模型是使用来自互联网的文本数据库进行训练的，据信它已经接受了大约3000亿个单词（即570GB数据）的训练。一项拟议的集体诉讼声称，OpenAI“秘密”窃取了“大量个人数据”，包括医疗记录和儿童信息，以培训ChatGPT。一群作家也在起诉这家人工智能公司，指控他们利用自己的作品来训练其聊天机器人。对于谷歌研究人员的发现，OpenAI已经给出回应，称重复使用某个指令可能违反了其服务条款。数字媒体调查网站404Media近日对谷歌研究人员的发现进行了核实，在要求ChatGPT不断重复“computer（计算机）”这个词时，该机器人确实吐出了这个词，但还附上了一条警告，上面写着：“此内容可能违反我们的内容政策或使用条款。”目前尚不清楚这一请求违反了OpenAI内容政策的哪个具体部分。然而，404Media指出，OpenAI的使用条款确实规定，用户“不得反向汇编、反向编译、反编译、翻译或以其他方式试图发现服务的模型、算法、系统的源代码或底层组件（除非此类限制违反适用的法律）”，并且还限制用户使用“任何自动或编程方法从服务提取数据或输出”。...PC版：https://www.cnbeta.com.tw/articles/soft/1402025.htm手机版：https://m.cnbeta.com.tw/view/1402025.htm

在Telegram中查看

相关推荐

研究人员发现ChatGPT可以在重复某些词语的状况下泄露敏感信息

研究人员发现ChatGPT可以在重复某些词语的状况下泄露敏感信息在推出仅两个月后，ChatGPT的月活跃用户数就达到了1亿，成为历史上增长最快的消费者应用之一。在今年11月6日举行的OpenAI首届开发者大会上，OpenAICEO萨姆•奥尔特曼（SamAltman）宣布，ChatGPT的周活跃用户数已达到1亿。就像所有所谓的大语言模型（LLM）一样，支持ChatGPT的底层机器学习模型也是使用从互联网上抓取的大量数据来进行训练的。但令人担忧的是，一些被提取的训练数据包含了真实人物的识别信息，包括姓名、电子邮件地址和电话号码。谷歌的研究人员找到了一种方法，即通过要求ChatGPT“永远”重复某些单词，就让ChatGPT透露了一些被用于训练的数据，这些数据包括私人信息（比如，个人姓名、电子邮件、电话号码等）、研究论文和新闻文章的片段、维基百科页面等等。GoogleBrain的高级研究科学家KatherineLee表示：“我们在7月份发现了这个漏洞，并在8月30日通知了OpenAI，在标准的90天披露期之后，我们发布了这个漏洞。既然我们向OpenAI披露了这一点，现在的情况可能会有所不同。”研究人员表示，OpenAI在8月30日修补了这个漏洞。外媒称，谷歌研究人员发现的有关ChatGPT的漏洞引起了严重的隐私问题，特别是对于那些在包含敏感信息的数据集上进行训练的模型而言。...PC版：https://www.cnbeta.com.tw/articles/soft/1400837.htm手机版：https://m.cnbeta.com.tw/view/1400837.htm

YouTube 认为 OpenAI 利用其视频训练 Sora 将违反服务条款

YouTube认为OpenAI利用其视频训练Sora将违反服务条款YouTube首席执行官NealMohan表示，他并不了解OpenAI是否确实利用YouTube视频来训练其人工智能视频创作工具Sora，但如果真是这样，那将“明显违反”YouTube的使用条款。Mohan表示，“从创作者的角度来看，当创作者将他们的辛勤作品上传到我们的平台时，他们有一定的期望，其中一个期望是必须遵守服务条款。它不允许下载文字记录或视频片段之类的内容，这明显违反了我们的服务条款。”Mohan说：“很多创作者在我们平台上的内容方面都有不同类型的许可合同。”尽管“YouTube语料库的一部分可能被用来”训练Gemini等模型，但谷歌和YouTube确保使用这些视频作为谷歌人工智能的训练数据“符合创作者事先签署的服务条款或合同”。而OpenAI并没有与创作者签署任何协议。——

YouTube CEO表示OpenAI用其视频训练Sora将违反平台服务条款

YouTubeCEO表示OpenAI用其视频训练Sora将违反平台服务条款"从创作者的角度来看，当创作者将他们的辛勤劳动上传到我们的平台时，他们有一定的期望，"莫汉周四在接受彭博原创节目主持人艾米莉-张（EmilyChang）的采访时说，"其中一个期望就是要遵守服务条款。它不允许下载文字稿或视频片段等内容，这明显违反了我们的服务条款。这些就是我们平台上内容的行事规则。"关于OpenAI使用什么材料来训练ChatGPT和DALL-E等流行内容创作产品的人工智能模型，公众一直争论不休。Sora和其他生成式人工智能工具的工作原理是从网络上吸取各种内容，并将这些数据作为工具生成新内容（包括视频、照片、叙述性文字等）的基础。随着OpenAI、Google等公司竞相开发更强大的人工智能，它们正寻求尽可能多的内容来训练其人工智能模型，以获得更高质量的结果。Google和YouTube是Alphabet公司的子公司。微软公司支持的OpenAI没有立即回应置评请求。OpenAI首席技术官米拉-穆拉提（MiraMurati）上个月在接受《华尔街日报》采访时说，她不确定Sora是否是在YouTube、Facebook和Instagram的用户生成视频上训练出来的。本周，《华尔街日报》援引熟悉此事的人士的话报道称，OpenAI已经讨论过在转录YouTube公开视频的基础上训练其下一代大型语言模型GPT-5。莫汉说，Google在决定是否使用平台上的视频来训练公司自己的强大人工智能模型"双子座"（Gemini）之前，会遵守YouTube与创作者签订的个人合同。"很多创作者在我们的平台上都有不同类型的内容授权合同。他说，虽然"YouTube语料库中的部分内容可能会被用于"训练Gemini等模型，但Google和YouTube会确保将这些视频用作Google人工智能的训练数据"符合该创作者事先签署的服务条款或合同"。...PC版：https://www.cnbeta.com.tw/articles/soft/1426233.htm手机版：https://m.cnbeta.com.tw/view/1426233.htm

作者指责 OpenAI 使用盗版网站训练 ChatGPT

作者指责OpenAI使用盗版网站训练ChatGPT本周，作者和对OpenAI提起集体诉讼，指控ChatGPT的母公司侵犯版权并违反DMCA等。据作者称，ChatGPT未经许可就对其受版权保护的作品进行了部分培训。诉讼中提供的证据看似简单。作者从未授权OpenAI使用他们的作品，但ChatGPT可以提供他们作品的准确摘要。这些信息一定来自某个地方。虽然这些类型的指控并不新鲜，但本周的诉讼指控OpenAI使用盗版网站作为训练输入。这可能包括Z-Library，这是一个拥有数百万册盗版图书的影子图书馆。OpenAI尚未透露ChatGPT训练的数据集，但在一篇较旧的论文中引用了两个数据库；“书籍1”和“书籍2”。第一个包含大约63,000个标题，后者包含大约294,000个标题。这些数字孤立起来毫无意义。然而，作者指出，OpenAI一定使用了盗版资源，因为包含这么多书籍的合法数据库并不存在。唯一提供如此多材料的“基于互联网的图书语料库”只有是盗版图书网站，例如、、和。目前的诉讼将受到人工智能爱好者和权利人的密切关注。这可能会导致OpenAI不得不披露一些训练数据。——

谷歌顶级AI专家加入OpenAI 曾警告不要用ChatGPT数据训练Bard

谷歌顶级AI专家加入OpenAI曾警告不要用ChatGPT数据训练Bard谷歌发言人则表示，“训练Bard没有用过任何来自ShareGPT或ChatGPT的数据。”据悉，用户可以在ShareGPT这个平台上发布他们与聊天机器人ChatGPT所交流的信息。报道称，德弗林曾告诉谷歌高管们，他认为开发Bard的团队使用了来自ShareGPT平台的信息。德弗林警告高管们，用用户与ChatGPT对话进行训练的话，可能会让Bard和ChatGPT太过相似。据报道，德弗林以及谷歌其他员工还认为这种做法违反了OpenAI的服务条款。消息人士表示，在德弗林就这个问题对谷歌高管发出警告后，谷歌就停止使用这些数据来训练Bard。据悉，今年1月份德弗林离开谷歌后不久，就加入了竞争对手OpenAI麾下。此前有报道称，德弗林是今年年初离开谷歌加入竞争对手的几名人工智能顶级研究人员之一。德弗林在谷歌工作了五年多时间。2018年他作为主要作者发布了一篇关于训练机器学习模型以提高搜索精度的研究论文，在一定程度上推动了人工智能的研究热潮。据报道，德弗林的研究成果已经成为谷歌和OpenAI语言模型的组成部分。多年来，OpenAI聘请了几十名来自谷歌母公司Alphabet的员工。去年11月份，OpenAI因公开发布能撰写文章还能自动编程的ChatGPT而爆火，此后谷歌和OpenAI就在人工智能领域展开激烈竞争。本月早些时候，谷歌向部分美国和英国用户发布了Bard。但是谷歌想要赶超OpenAI的步伐并没有停止。有报道称，为了能和OpenAI竞争，隶属于Alphabet旗下的两个人工智能团队DeepMind和谷歌大脑（GoogleBrain）已经联手。（辰辰）...PC版：https://www.cnbeta.com.tw/articles/soft/1352121.htm手机版：https://m.cnbeta.com.tw/view/1352121.htm

字节跳动被曝使用ChatGPT训练自家AI，被OpenAI封禁

字节跳动被曝使用ChatGPT训练自家AI，被OpenAI封禁据外媒TheVerge报道，中国科技公司字节跳动一直在秘密使用OpenAI的AI语言大模型ChatGPT来训练自己开发的大模型，并在名为“豆包”的聊天机器人提供相关服务。外媒报道称，字节员工在飞书上讨论如何通过“数据脱敏”来“粉饰”证据。字节对GPT的使用量之大使其员工经常达到API(程序接口)访问的最大限额。而这种行为并不符合OpenAI的使用政策。OpenAI对报道回应称，在进一步调查期间已暂停了字节跳动的帐户。字节跳动则回应称，GPT生成的数据在今年年中已从字节跳动的训练数据中删除。有中媒引用国内业内人士说法称，国内厂商用国外主流模型的API先试水业务、训练模型的情况并不少见。原文链接《TheVerge》《36氪》

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人