WordPress和Tumblr的母公司Automattic计划出售用户照片给AI公司训练

WordPress和Tumblr的母公司Automattic计划出售用户照片给AI公司训练 这一决定哪怕是在 Automattic 内部都引起了轩然大波,以至于其产品经理都从自己的汤不热上删除照片避免照片被出售。目前交易细节还不清楚,不过消息源称 Automattic 将为用户提供退出的选项,但如果用户没有选择退出该计划的话,那么自己发布的图片包括照片就会被出售。Automattic 计划从本周三开始为用户提供一项新设置,该设置用于主动选择退出训练人工智能,然而大多数用户显然不会看到这则消息以及不会主动选择退出,因此实际上绝大部分内容都会被出售。对于 OPENAI 和 MidJourney 这类 AI 公司来说,获取足够多的图片数据是有必要的,这些图片可以被用来训练人工智能,以便更好地通过文本生成图片或视频。Automattic 也在博客中公布了这些消息,该公司称相信自由开放的网络以及尊重用户个人选择,同时该公司指出不存在任何法律要求网络爬虫遵循这类偏好。言外之意就是用户在公共平台发布的这些照片哪怕是包含私人信息的照片,也都可能会被各种爬虫抓取,本身不具有隐私性,既然如此那被拿出去出售以及都为用户提供退出选项了,很合理吧? ... PC版: 手机版:

相关推荐

封面图片

Tumblr 母公司正在与 OpenAI 和 Midjourney 就人工智能训练数据达成协议

Tumblr 母公司正在与 OpenAI 和 Midjourney 就人工智能训练数据达成协议 据了解这些交易内部情况以及涉及这些内部交易文档的消息人士透露,WordPress.com 和 Tumblr 正准备将用户数据出售给 Midjourney 和 OpenAI 用于人工智能训练,交易即将进行。

封面图片

Meta更新隐私政策 用户在FB/Ins上发布的内容将被用于训练AI

Meta更新隐私政策 用户在FB/Ins上发布的内容将被用于训练AI Facebook 和 Instagram 母公司 Meta 日前开始向用户发布新的隐私权政策,根据新版隐私权政策,用户将同意将自己发布的任何内容用于 AI at Meta 模型训练。新的隐私权政策将在 2024 年 6 月 26 日生效,如果用户反对该隐私权政策则应该停止使用 Facebook 和 Ins 等产品,否则均为接受新政策,即用户数据可以用于训练模型。哪些数据会被用于 AI 模型训练:应该说哪些数据不会被用于 AI 模型训练,除了用户与好友之间的私密消息内容外,其他数据及衍生数据均会被用于模型训练。例如用户在 Facebook 上发布的图片和文字内容、在 INS 上发布的图片、好友或其他用户发布的评论、用户在其他帖子中发布的评论、这些数据经过 Meta 处理后产生的分析数据等。因此除了私密消息外其他所有数据都会被用于训练,除非用户停止使用 FB 和 INS 等产品,否则产生的数据就会用于训练。估计其他公司也会跟进此类措施:对社交媒体平台来说用户数据就是最大的宝藏,例如埃隆马斯克的 xAI 就主要使用 X/Twitter 上的数据进行训练,xAI 还可以实时抓取 X/Twitter 上的数据。谷歌则使用 YouTube 视频库作为训练材料之一,即谷歌开发 AI 将视频转录为文字内容,然后再将文字内容拿去训练 AI。其他任何拥有大量数据的公司后续应该都会更新隐私政策要求用户同意将数据用于模型训练,尽管这不会给用户产生任何收益。 ... PC版: 手机版:

封面图片

巴西禁止 “元” 公司以用户数据训练 AI

巴西禁止 “元” 公司以用户数据训练 AI 巴西数据保护局 2 日要求美国 “元” 公司不得使用巴西用户数据训练生成式人工智能(AI)模型。对此 “元” 公司回应称,这一禁令是 “倒退”。巴西数据保护局在声明中说,这一禁令系 “预防性措施”,理由是 “受影响数据主体的基本权利面临蒙受严重且不可弥补或难以弥补损失的风险”。

封面图片

科技巨头狂撒千亿美元 “买照片” 只为训练AI模型?

科技巨头狂撒千亿美元 “买照片” 只为训练AI模型? 不只是Photobucket,Reddit、Youtube等知名网站都成了科技巨头们的疯抢目标。苹果为训练AI买图片,网友担忧隐私Photobucket是一个提供影像寄存、视频寄存、幻灯片制作与照片分享服务网站,成立于2003年。在当时,用户把这个网站当作个人相册,与功能与现在流行的在线相册非常相似。在巅峰期,该网站曾拥有7000万用户。而到2007年,Photobucket就声称已有超过28亿张图像上传到其网站。不过随着越来越多的功能更强大的在线相册App出现之后,这种网站式的在线相册也逐渐失去了热度。不过毕竟是一家成立二十多年的网站,别的不说,数据是真的多,130亿张图片与视频,足够AI模型消化很久。据悉,苹果购买的图片的主要目的就是提高生成式AI的水平。除此之外,苹果公司在早些时候与另一家图片素材网站Shutterstock达成了数百万张图片的授权协议,据悉这笔交易的价值在2500万美元到5000万美元之间。随着 今年6月份WWDC大会日益临近,每个人都在期待苹果公司能带来“令人惊叹”的AI功能。但和上笔交易不同,不少网友开始为了隐私担心。有人评论表示,Photobucket的图片来源都是基于网友的“托管,这就意外着这些图片虽然已经是陈年老图,但仍属于用户的个人秘密。而Shutterstock的数据大多是免版税的图片、矢量图和插图库,包括影片剪辑以及音乐曲目,本身就可以授权给用户使用。这么一对比,网友对于Photobucket的数据隐私安全问题也可以理解了。除了涉及隐私以外,不少网友还对这些库存照片的质量提出了质疑。如果给AI喂食这些本来就带有错误的图片,那么是否会生成质量更低的图片呢?总之,就苹果购买Photobucket图片的行为,大多数网友并不赞同。但即使冒着泄露隐私的风险,苹果和其他公司们还是得“铤而走险”搞来这些数据。主要原因还是高质量的互联网数据,可能没几年就要耗尽了。其实早在多年前,各大科技巨头就已经碰到训练语料缺失的瓶颈。据《纽约时报》报道,OpenAI在训练GPT-4时,就曾遇到英文文本资料缺失的情况。为了处理这个问题,OpenAI推出一款名为Whisper语音识别工具,用来转录Google旗下视频平台Youtube的视频音频,生成大量的对话文本。据报道称,这款工具以开源的名义转录了超过一百万小时的Youtube视频,实际上已经违反了Youtube的隐私规则,而这些资料也成为ChatGPT的基础。这并不是OpenAI第一次因为偷扒数据犯错。包括《纽约时报》在内,多家数字新闻媒体对OpenAI提起版权侵权诉讼,认为他们的数千篇报道被OpenAI用来训练ChatGPT。当然,通过“爬虫”等手段搜刮训练数据的科技公司不止OpenAI这一家,“受害者”Google也曾通过修改服务条款的方式,将“使用公开信息训练AI模型”偷偷写进隐私细则中,从而允许工程师们利用公开的文档、在线资料等开发AI产品。不过随着OpenAI在版权问题上越陷越深,其他科技巨头也只能乖乖掏钱为训练数据付费。至少比起互联网上免费抓取的数据,Photobucket近130亿的数据量还是相对来说质量更高点。花钱买数据,或许还不够可怕的是,即便是130亿的数据量,也可能喂不饱现在的AI的模型。研究机构Epoch直白地表示,现在科技公司使用数据的速度已经超过数据生产的速度,这些公司最快会在2026年就耗尽互联网上的高质量数据。有数据统计,在2020年11月发布的GPT-3上,使用了3000亿个Token的训练数据。而到了2024年,GooglePaLM 2的训练数据量则达到3.6万亿个Token。数据量是一回事,数据的质量更是直接影响AI大模型的生成能力。正如网友所担忧的那样,低质量的数据甚至可能让AI陷入不可逆转的方向。面对这样的问题,OpenAI开始尝试使用合成数据(AI生成的数据)来训练AI。这样既可以减少对受版权保护数据的依赖,同时也能训练出更强大的结果。对此OpenAI和一系列机构开始研究使用两个不同的模型来生成更有用、更可靠的合成数据,其中一个模型用来生成数据,另一个则用来对生成的数据进行审核。不只是OpenAI,英伟达很早就在用合成数据弥补现实世界的数据。在2021年11月,英伟达对外推出合成数据生成引擎Omniverse Replicator 。英伟达将其描述为“用于生成具有基本事实的合成数据以训练 AI 网络的引擎”,其作用就是用来训练AI。此产品推出后,由该引擎生成的合成数据在自动驾驶、机器人等多个场景里都得到了验证,因此英伟达也在近些年希望将其推广到更多领域,包括聊天机器人。然而,合成数据在工业场景里的成功案例,并不代表在其他领域都能遵循物理规律。有时候AI连真实图片都无法理解,更不要说理解二次生成的图片了。 ... PC版: 手机版:

封面图片

美国META公司因利用欧洲用户的数据训练人工智能在挪威遭投诉

美国META公司因利用欧洲用户的数据训练人工智能在挪威遭投诉 美国 Meta 公司因计划使用脸书和 IG 上的用户图像和帖子来训练人工智能模型而遭到挪威的投诉。挪威消费者委员会13日在声明中表示,选择退出的流程违反了严格的欧盟数据保护规则,并且“通过使用欺骗性的设计模式和模糊的措辞,故意变得繁琐” 。挪威消费者委员会主管 Inger Lise Blyverket 在声明中说:“我们敦促数据保护局评估 Meta 的做法的合法性,并确保该公司的运营合法。”该投诉由欧洲数字权利中心撰写,并将提交给挪威数据保护局和其他欧洲数据保护机构。

封面图片

摄影平台 EyeEm 声称将默认使用摄影师作品训练 AI 模型:“不服请自删照片”

摄影平台 EyeEm 声称将默认使用摄影师作品训练 AI 模型:“不服请自删照片” EyeEm 摄影平台创立于 2011 年,该平台在 2015 年上线 EyeEm Market 照片交易市场,允许用户出售自己的摄影作品,在 2021 年以接近 4000 万美元的价格被瑞士社交网站 Talenthouse 收购,不过自 2022 年夏天开始,EyeEm 平台上的摄影师开始对外抱怨没有收到应有的报酬,该平台也在 2023 年 4 月申请破产,而在 2023 年 10 月,西班牙公司 Freepik 宣布买下了该摄影平台。 EyeEm 近日变更了服务条款中的 8.1 节,其中声称如果摄影师选择将照片上传到 EyeEm 平台,即等同于授权该平台可转让及可再授权的权利,不仅允许平台复制、公开展示、制作衍生商品及传播,还能使用这些内容来训练软件算法与机器学习模型,相关条款同时适用于上传至 EyeEm 平台及 EyeEm Market 市场的内容。 不希望自己的摄影作品被免费用来训练 AI 模型的 EyeEm 用户,需要自行在 EyeEm 平台中删除所有作品,对于已经提交至 EyeEm Market 市场的作品,用户需要发送邮件提交“删除申请”,但需要“最多 180 天”的处理时间。来源 , 频道:@kejiqu 群组:@kejiquchat

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人