微软、OpenAI等公司已使用合成数据来训练AI模型

微软、OpenAI等公司已使用合成数据来训练AI模型金十数据7月20日讯，人工智能初创公司Cohere首席执行官AidenGomez表示，由于Reddit、推特等公司的数据采集要价太高，微软、OpenAI和Cohere等公司，已使用合成数据来训练AI模型。Gomez表示，合成数据可以适用于很多训练场景，只是目前尚未全面推广。来源：https://flash.jin10.com/detail/20230720104640322100 via 匿名标签: #AI 频道: @GodlyNews1 投稿: @GodlyNewsBot

在Telegram中查看

相关推荐

训练 ChatGPT 等模型不付钱？美国新闻集团拟起诉微软、谷歌、OpenAI

训练 ChatGPT 等模型不付钱？美国新闻集团拟起诉微软、谷歌、OpenAI 华尔街日报报道，AI 技术的发展已经引发了新闻出版业的不满，他们认为自己的内容被大型科技公司用于训练 AI 模型而没有得到合理的补偿。拥有《纽约邮报》、《巴伦周刊》、《华尔街日报》等的美国新闻集团正准备向 OpenAI、微软和谷歌等公司提起诉讼，要求赔偿其内容在 ChatGPT、Bard 等 AI 工具中被用来使用的费用。当前这是一个复杂而模糊的法律问题，涉及到 AI 公司是否有权从互联网上抓取内容，并将其输入到训练模型中。一些批评者认为，这是一种工业规模的知识产权盗窃行为。出版商担心，AI 工具可能会影响他们网站的流量和广告收入。事实上，AI 版权问题并非始于 ChatGPT。在图像和代码方面，已经有多起诉讼案件涉及到 AI 模型训练使用受版权保护的数据。例如，Midjourney、Stability AI、微软、GitHub 以及 OpenAI 都曾卷入相关纠纷。目前，对于 AI 创作是否受版权保护还没有形成固定的准则。法律人士认为，所有针对生成式 AI 的案件可能需要数年时间才能结案。科技公司与内容出版商进行协商寻求使用许可，或许是最好的解决办法。来源，来自：雷锋频道：@kejiqu 群组：@kejiquchat 投稿：@kejiqubot

OpenAI版权诉讼越来越多寻求更多数据来训练人工智能

OpenAI版权诉讼越来越多寻求更多数据来训练人工智能问题的一部分在于，出版商越来越多地指责这些公司窃取受版权保护的数据。他们希望为自己的工作获得报酬。Meta 和 OpenAI在向美国版权局提交的评论中辩称，将受版权保护的材料放在互联网上使其公开可用，因此属于合理使用。但他们仍必须在法庭上提出这一论点，因为该公司面临来自多个团体的有关版权材料的诉讼。调查报道中心是一家非营利性新闻机构，有时简称为 CIR，今年早些时候与 Mother Jones 和 Reveal 合并，上周在联邦法院起诉了 OpenAI 和微软。诉讼指控OpenAI建立在对包括 CIR 在内的全球创作者的版权作品的剥削之上。CIR 的律师指控 OpenAI 和微软使用 Mother Jones 的版权材料来训练他们的 GPT 和 Copilot AI 模型。“OpenAI 和微软开始窃取我们的新闻，以使他们的产品更加强大，但他们从未征求我们的许可或提供补偿，这与其他获得我们材料许可的组织不同。”调查报道中心首席执行官莫妮卡·鲍尔莱因 (Monika Bauerlein)在一份关于诉讼的声明中表示。“这种搭便车行为不仅不公平，而且侵犯了版权。”诉讼称，该公司 WebText 训练集中存在的顶级网络域名发布的列表中出现了来自 Mother Jones 网络域名的 16,793 个不同的 URL。在作家协会的另一起集体诉讼中，两位作家声称该公司利用他们书中的信息来训练 ChatGPT。《纽约时报》也在 2023 年 12 月对该公司提起了类似的诉讼。今年 5 月，作家协会诉讼案的法庭文件显示，OpenAI 删除了用于训练 GPT-3 的两个庞大数据集。该协会的律师表示，这两组数据可能包含超过 10 万本已出版的书籍。法庭文件称，负责整理数据的两名员工不再为 OpenAI 工作。OpenAI 已开始与新闻机构签署许可协议，以公平使用其作品。该公司已与美联社、《华尔街日报》和《纽约邮报》的出版商、《大西洋月刊》、Prisa Media、《世界报》、《金融时报》和 Business Insider 母公司 Axel Springer 签署了此类协议。但这些机器人持续学习所需的内容规模将远远超过少数几份许可协议。一种解决方案是合成数据，它是人工生成的而不是从现实世界收集的，并且可以通过机器学习算法轻松生成。OpenAI 已将合成数据视为训练其模型的一种选择，但首席执行官 Sam Altman 对生成高质量数据表示担忧。奥尔特曼在 2023 年 5 月的一次技术会议上表示：只要你能跨越合成数据事件视界，让模型足够智能，能够生成良好的合成数据，那么一切都会好起来。该公司还探索了人工智能模型协同工作的过程一个人工智能系统生成数据，另一个人工智能系统对其进行判断。OpenAI 尚未立即回复评论请求。 ... PC版：手机版：

纽约时报控告OpenAI、微软擅自使用网站内容训练AI

纽约时报控告OpenAI、微软擅自使用网站内容训练AI （英文）这次控告，纽时并未寻求特定金额赔偿，但他们估计因被告滥用其内容造成的损害上看数十亿美元。这家媒体龙头也要求OpenAI及微软摧毁使用其内容训练出的AI模型及训练资料集。 2023/12/14 2023/07/14 2023/05/02

科技巨头狂撒千亿美元 “买照片” 只为训练AI模型？

科技巨头狂撒千亿美元 “买照片” 只为训练AI模型？不只是Photobucket，Reddit、Youtube等知名网站都成了科技巨头们的疯抢目标。苹果为训练AI买图片，网友担忧隐私Photobucket是一个提供影像寄存、视频寄存、幻灯片制作与照片分享服务网站，成立于2003年。在当时，用户把这个网站当作个人相册，与功能与现在流行的在线相册非常相似。在巅峰期，该网站曾拥有7000万用户。而到2007年，Photobucket就声称已有超过28亿张图像上传到其网站。不过随着越来越多的功能更强大的在线相册App出现之后，这种网站式的在线相册也逐渐失去了热度。不过毕竟是一家成立二十多年的网站，别的不说，数据是真的多，130亿张图片与视频，足够AI模型消化很久。据悉，苹果购买的图片的主要目的就是提高生成式AI的水平。除此之外，苹果公司在早些时候与另一家图片素材网站Shutterstock达成了数百万张图片的授权协议，据悉这笔交易的价值在2500万美元到5000万美元之间。随着今年6月份WWDC大会日益临近，每个人都在期待苹果公司能带来“令人惊叹”的AI功能。但和上笔交易不同，不少网友开始为了隐私担心。有人评论表示，Photobucket的图片来源都是基于网友的“托管，这就意外着这些图片虽然已经是陈年老图，但仍属于用户的个人秘密。而Shutterstock的数据大多是免版税的图片、矢量图和插图库，包括影片剪辑以及音乐曲目，本身就可以授权给用户使用。这么一对比，网友对于Photobucket的数据隐私安全问题也可以理解了。除了涉及隐私以外，不少网友还对这些库存照片的质量提出了质疑。如果给AI喂食这些本来就带有错误的图片，那么是否会生成质量更低的图片呢？总之，就苹果购买Photobucket图片的行为，大多数网友并不赞同。但即使冒着泄露隐私的风险，苹果和其他公司们还是得“铤而走险”搞来这些数据。主要原因还是高质量的互联网数据，可能没几年就要耗尽了。其实早在多年前，各大科技巨头就已经碰到训练语料缺失的瓶颈。据《纽约时报》报道，OpenAI在训练GPT-4时，就曾遇到英文文本资料缺失的情况。为了处理这个问题，OpenAI推出一款名为Whisper语音识别工具，用来转录Google旗下视频平台Youtube的视频音频，生成大量的对话文本。据报道称，这款工具以开源的名义转录了超过一百万小时的Youtube视频，实际上已经违反了Youtube的隐私规则，而这些资料也成为ChatGPT的基础。这并不是OpenAI第一次因为偷扒数据犯错。包括《纽约时报》在内，多家数字新闻媒体对OpenAI提起版权侵权诉讼，认为他们的数千篇报道被OpenAI用来训练ChatGPT。当然，通过“爬虫”等手段搜刮训练数据的科技公司不止OpenAI这一家，“受害者”Google也曾通过修改服务条款的方式，将“使用公开信息训练AI模型”偷偷写进隐私细则中，从而允许工程师们利用公开的文档、在线资料等开发AI产品。不过随着OpenAI在版权问题上越陷越深，其他科技巨头也只能乖乖掏钱为训练数据付费。至少比起互联网上免费抓取的数据，Photobucket近130亿的数据量还是相对来说质量更高点。花钱买数据，或许还不够可怕的是，即便是130亿的数据量，也可能喂不饱现在的AI的模型。研究机构Epoch直白地表示，现在科技公司使用数据的速度已经超过数据生产的速度，这些公司最快会在2026年就耗尽互联网上的高质量数据。有数据统计，在2020年11月发布的GPT-3上，使用了3000亿个Token的训练数据。而到了2024年，GooglePaLM 2的训练数据量则达到3.6万亿个Token。数据量是一回事，数据的质量更是直接影响AI大模型的生成能力。正如网友所担忧的那样，低质量的数据甚至可能让AI陷入不可逆转的方向。面对这样的问题，OpenAI开始尝试使用合成数据（AI生成的数据）来训练AI。这样既可以减少对受版权保护数据的依赖，同时也能训练出更强大的结果。对此OpenAI和一系列机构开始研究使用两个不同的模型来生成更有用、更可靠的合成数据，其中一个模型用来生成数据，另一个则用来对生成的数据进行审核。不只是OpenAI，英伟达很早就在用合成数据弥补现实世界的数据。在2021年11月，英伟达对外推出合成数据生成引擎Omniverse Replicator 。英伟达将其描述为“用于生成具有基本事实的合成数据以训练 AI 网络的引擎”，其作用就是用来训练AI。此产品推出后，由该引擎生成的合成数据在自动驾驶、机器人等多个场景里都得到了验证，因此英伟达也在近些年希望将其推广到更多领域，包括聊天机器人。然而，合成数据在工业场景里的成功案例，并不代表在其他领域都能遵循物理规律。有时候AI连真实图片都无法理解，更不要说理解二次生成的图片了。 ... PC版：手机版：

微软将推出自研新大模型 MAI-1 与谷歌和 OpenAI 竞争

微软将推出自研新大模型 MAI-1 与谷歌和 OpenAI 竞争微软正在公司内部训练一个新的人工智能模型，其规模足以与谷歌、Anthropic，乃至 OpenAI 的先进模型相抗衡。新模型内部代号为 MAI-1 ，由前谷歌 AI 负责人 Mustafa Suleyman 领导开发。 Suleyman 曾担任初创公司 Inflection 的 CEO，今年 3 月微软以 6.5 亿美元收购该公司后加入微软。 MAI-1 可能会基于 Inflection 的训练数据与技术，但据两名知情的微软员工透露，新模型与 Inflection 公司原有的模型 Pi 是两个不同项目。相关人士称，MAI-1 的规模“远大于”微软此前训练过的任何开源模型，将有约 5,000 亿参数，意味着它将需要更强算力及训练数据，同时也会具备更高的成本。

OpenAI 现允许网站阻止其网络爬虫抓取数据，避免数据被用于训练 AI 模型

OpenAI 现允许网站阻止其网络爬虫抓取数据，避免数据被用于训练 AI 模型 OpenAI 在其博客文章中表示，网站运营者可以通过在其网站的文件中禁止 GPTBot 的访问，或者通过屏蔽其 IP 地址，来阻止 GPTBot 从其网站上抓取数据。OpenAI 还表示，“使用 GPTBot 用户代理（user agent）抓取的网页可能会被用于改进未来的模型，并且会过滤掉那些需要付费访问、已知收集个人身份信息（PII）、或者有违反我们政策的文本的来源。”对于不符合排除标准的来源，“允许 GPTBot 访问您的网站可以帮助 AI 模型变得更加准确，并提高它们的通用能力和安全性。” 但是，这并不会追溯性地从 ChatGPT 的训练数据中删除之前从网站上抓取的内容。来源，，频道：@kejiqu 群组：@kejiquchat 投稿：@kejiqubot

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人