科技巨头悄然变更隐私政策以支持AI训练

科技巨头悄然变更隐私政策以支持AI训练一些大型科技公司，如Google、Snap和Meta，正在悄悄更改他们的隐私政策，以便使用用户数据训练人工智能模型。这种做法可能违法，因为美国联邦贸易委员会（FTC）已经警告，公司不应在不通知用户的情况下更改隐私条款。例如，Google在去年对其隐私政策进行了调整，声称使用公开信息来训练其语言AI模型，并开发如GoogleTranslate、Bard（现更名为Gemini）和CloudAI等产品。Adobe也采取了类似行动，但由于用户反馈，不得不发布澄清。Meta曾计划使用公开帖子来训练其AI，但在欧洲数字权利中心的投诉后暂停了这些计划。随着隐私政策的不断变化，监管机构可能需要采取行动来应对这些挑战，确保用户隐私得到妥善保护。关注频道@ZaiHuaPd频道爆料@ZaiHuabot

在Telegram中查看

相关推荐

Meta更新隐私政策用户在FB/Ins上发布的内容将被用于训练AI

Meta更新隐私政策用户在FB/Ins上发布的内容将被用于训练AIFacebook和Instagram母公司Meta日前开始向用户发布新的隐私权政策，根据新版隐私权政策，用户将同意将自己发布的任何内容用于AIatMeta模型训练。新的隐私权政策将在2024年6月26日生效，如果用户反对该隐私权政策则应该停止使用Facebook和Ins等产品，否则均为接受新政策，即用户数据可以用于训练模型。哪些数据会被用于AI模型训练：应该说哪些数据不会被用于AI模型训练，除了用户与好友之间的私密消息内容外，其他数据及衍生数据均会被用于模型训练。例如用户在Facebook上发布的图片和文字内容、在INS上发布的图片、好友或其他用户发布的评论、用户在其他帖子中发布的评论、这些数据经过Meta处理后产生的分析数据等。因此除了私密消息外其他所有数据都会被用于训练，除非用户停止使用FB和INS等产品，否则产生的数据就会用于训练。估计其他公司也会跟进此类措施：对社交媒体平台来说用户数据就是最大的宝藏，例如埃隆马斯克的xAI就主要使用X/Twitter上的数据进行训练，xAI还可以实时抓取X/Twitter上的数据。谷歌则使用YouTube视频库作为训练材料之一，即谷歌开发AI将视频转录为文字内容，然后再将文字内容拿去训练AI。其他任何拥有大量数据的公司后续应该都会更新隐私政策要求用户同意将数据用于模型训练，尽管这不会给用户产生任何收益。...PC版：https://www.cnbeta.com.tw/articles/soft/1433263.htm手机版：https://m.cnbeta.com.tw/view/1433263.htm

Google 更新隐私政策将抓取所有 Web 内容训练 AI

Google更新隐私政策将抓取所有Web内容训练AIGoogle于7月1日更新了它的隐私政策，其中包括保留权利抓取公开Web内容训练AI。Google在新版隐私政策中称，“我们可能会收集网络上可公开访问的信息或其它公共来源的信息去帮助训练Google的AI语言模型，构成产品和功能如GoogleTranslate、Bard和CloudAI。”整个互联网正成为搜索巨人的AI游乐场。来源，，来自：雷锋频道：@kejiqu群组：@kejiquchat投稿：@kejiqubot

WPS 道歉并更新隐私政策明确不将用户文档用于 AI 训练

WPS道歉并更新隐私政策明确不将用户文档用于AI训练据之前媒体报道，WPS在11月13日更新了《隐私协议》，其中提到“我们将对您主动上传的文档材料，在采取脱敏处理后作为AI训练的基础材料使用”。当时有网友担心WPS使用用户文档训练AI会泄漏隐私。昨日，WPS官方微博发文，对近期用户反映的问题表达歉意，并表示“我们已经更新了《WPS隐私政策》，去除了容易引起误解的表述，并确保其内容与我们的实际操作严格对应”。WPS官方郑重声明，所有用户文档不会被用于任何AI训练目的，也不会在未经用户同意的情况下用于任何场景。并重申，WPS始终严格遵守所有可适用的用户隐私保护法律和标准。——

巴西禁止 Meta 用该国用户数据训练 AI 模型

巴西禁止Meta用该国用户数据训练AI模型巴西国家数据保护机构周二裁定，Meta须停止使用该国用户数据训练其AI模型。Meta此前更新隐私政策，声明将使用用户公开发表的帖子训练AI模型。巴西监管机构担心儿童与朋友和家人分享的个人数据可能会被以无法预料的方法对他们造成伤害。里约热内卢智库InstituteofTechnologyandSociety的RonaldoLemos认为，巴西此举可能会鼓励其它科技公司在使用个人数据方面维持不透明的状态，因为Meta是唯一一家提前通知使用个人数据训练AI的科技巨头，结果却因此受到严厉惩罚。Meta收到通知后需要在五天内证明合规，否则每天面临5万雷亚尔的罚款。Meta发言人对巴西的裁决表达了失望。来源，频道：@kejiqu群组：@kejiquchat

推特调整隐私政策可拿用户发布的信息训练AI模型

推特调整隐私政策可拿用户发布的信息训练AI模型对此，马斯克在X上回应称，X只会使用公开的信息来训其练人工智能模型，不会使用任何私有的内容。今年7月，马斯克曾在一次音频直播中表示，他旗下的人工智能初创公司xAI将使用X平台上的公共数据来培训其人工智能模型。目前尚不清楚，马斯克将如何使用来自X平台上的用户信息，以及用于哪些人工智能模型。对此，X尚未发表评论。之前，马斯克一直反对其他平台使用X的数据来训练人工智能模型。今年4月，马斯克甚至威胁要起诉微软，称微软非法使用X的数据训练其人工智能模型。今年7月，马斯克宣布成立人工智能公司xAI，旨在使用人工智能来帮助理解宇宙的真实本质。而在此之前，马斯克曾警告称，人工智能可能摧毁人类文明。而且，他还签署了一封联名信，呼吁暂停训练比OpenAI的GPT-4更强大的人工智能系统。xAI并不是马斯克首次涉足人工智能领域，他还是ChatGPT开发商OpenAI的早期支持者，但于2018年离开了公司董事会。马斯克曾表示，他对OpenAI的成立至关重要，甚至连公司名称都是他想出来的。知情人士称，当ChatGPT在去年11月首次亮相并迅速蹿红后，马斯克特别愤怒。自那以后，他一直对人工智能聊天机器人持批评态度。为ChatGPT等生成式人工智能产品提供动力的技术，需要大量数据来训练。过去，这些数据都是从Reddit和维基百科等公开网站上获取的。如今，这些公司（如Reddit和维基百科）想从这一点上获利，否则就停止提供数据。例如，Reddit在4月份曾表示，计划向访问其数据的人工智能公司收取费用。此外，《纽约时报》和亚马逊等其他网站也在屏蔽OpenAI的网络爬虫。众所周知，社交媒体网站拥有无穷无尽的用户生成内容，对于渴望获得新培训数据来源的人工智能公司来说，它们就是一座金矿。Facebook母公司Meta也在开发自己的生成式人工智能模型，最近推出了一个选项，让Facebook用户选择不分享他们的数据来训练其人工智能模型。但有媒体报道称，Meta的承诺是有局限性的，而且不能保证用户的所有信息都会从其人工智能训练数据库中删除。...PC版：https://www.cnbeta.com.tw/articles/soft/1381065.htm手机版：https://m.cnbeta.com.tw/view/1381065.htm

科技巨头狂撒千亿美元 “买照片” 只为训练AI模型？

科技巨头狂撒千亿美元“买照片”只为训练AI模型？不只是Photobucket，Reddit、Youtube等知名网站都成了科技巨头们的疯抢目标。苹果为训练AI买图片，网友担忧隐私Photobucket是一个提供影像寄存、视频寄存、幻灯片制作与照片分享服务网站，成立于2003年。在当时，用户把这个网站当作个人相册，与功能与现在流行的在线相册非常相似。在巅峰期，该网站曾拥有7000万用户。而到2007年，Photobucket就声称已有超过28亿张图像上传到其网站。不过随着越来越多的功能更强大的在线相册App出现之后，这种网站式的在线相册也逐渐失去了热度。不过毕竟是一家成立二十多年的网站，别的不说，数据是真的多，130亿张图片与视频，足够AI模型消化很久。据悉，苹果购买的图片的主要目的就是提高生成式AI的水平。除此之外，苹果公司在早些时候与另一家图片素材网站Shutterstock达成了数百万张图片的授权协议，据悉这笔交易的价值在2500万美元到5000万美元之间。随着今年6月份WWDC大会日益临近，每个人都在期待苹果公司能带来“令人惊叹”的AI功能。但和上笔交易不同，不少网友开始为了隐私担心。有人评论表示，Photobucket的图片来源都是基于网友的“托管，这就意外着这些图片虽然已经是陈年老图，但仍属于用户的个人秘密。而Shutterstock的数据大多是免版税的图片、矢量图和插图库，包括影片剪辑以及音乐曲目，本身就可以授权给用户使用。这么一对比，网友对于Photobucket的数据隐私安全问题也可以理解了。除了涉及隐私以外，不少网友还对这些库存照片的质量提出了质疑。如果给AI喂食这些本来就带有错误的图片，那么是否会生成质量更低的图片呢？总之，就苹果购买Photobucket图片的行为，大多数网友并不赞同。但即使冒着泄露隐私的风险，苹果和其他公司们还是得“铤而走险”搞来这些数据。主要原因还是高质量的互联网数据，可能没几年就要耗尽了。其实早在多年前，各大科技巨头就已经碰到训练语料缺失的瓶颈。据《纽约时报》报道，OpenAI在训练GPT-4时，就曾遇到英文文本资料缺失的情况。为了处理这个问题，OpenAI推出一款名为Whisper语音识别工具，用来转录Google旗下视频平台Youtube的视频音频，生成大量的对话文本。据报道称，这款工具以开源的名义转录了超过一百万小时的Youtube视频，实际上已经违反了Youtube的隐私规则，而这些资料也成为ChatGPT的基础。这并不是OpenAI第一次因为偷扒数据犯错。包括《纽约时报》在内，多家数字新闻媒体对OpenAI提起版权侵权诉讼，认为他们的数千篇报道被OpenAI用来训练ChatGPT。当然，通过“爬虫”等手段搜刮训练数据的科技公司不止OpenAI这一家，“受害者”Google也曾通过修改服务条款的方式，将“使用公开信息训练AI模型”偷偷写进隐私细则中，从而允许工程师们利用公开的文档、在线资料等开发AI产品。不过随着OpenAI在版权问题上越陷越深，其他科技巨头也只能乖乖掏钱为训练数据付费。至少比起互联网上免费抓取的数据，Photobucket近130亿的数据量还是相对来说质量更高点。花钱买数据，或许还不够可怕的是，即便是130亿的数据量，也可能喂不饱现在的AI的模型。研究机构Epoch直白地表示，现在科技公司使用数据的速度已经超过数据生产的速度，这些公司最快会在2026年就耗尽互联网上的高质量数据。有数据统计，在2020年11月发布的GPT-3上，使用了3000亿个Token的训练数据。而到了2024年，GooglePaLM2的训练数据量则达到3.6万亿个Token。数据量是一回事，数据的质量更是直接影响AI大模型的生成能力。正如网友所担忧的那样，低质量的数据甚至可能让AI陷入不可逆转的方向。面对这样的问题，OpenAI开始尝试使用合成数据（AI生成的数据）来训练AI。这样既可以减少对受版权保护数据的依赖，同时也能训练出更强大的结果。对此OpenAI和一系列机构开始研究使用两个不同的模型来生成更有用、更可靠的合成数据，其中一个模型用来生成数据，另一个则用来对生成的数据进行审核。不只是OpenAI，英伟达很早就在用合成数据弥补现实世界的数据。在2021年11月，英伟达对外推出合成数据生成引擎OmniverseReplicator。英伟达将其描述为“用于生成具有基本事实的合成数据以训练AI网络的引擎”，其作用就是用来训练AI。此产品推出后，由该引擎生成的合成数据在自动驾驶、机器人等多个场景里都得到了验证，因此英伟达也在近些年希望将其推广到更多领域，包括聊天机器人。然而，合成数据在工业场景里的成功案例，并不代表在其他领域都能遵循物理规律。有时候AI连真实图片都无法理解，更不要说理解二次生成的图片了。...PC版：https://www.cnbeta.com.tw/articles/soft/1426842.htm手机版：https://m.cnbeta.com.tw/view/1426842.htm

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人