GPT-4 训练引发版权争议:OpenAI 转录百万小时 YouTube 视频

GPT-4训练引发版权争议:OpenAI转录百万小时YouTube视频OpenAI为开发其尖端的GPT-4语言模型,转录了逾百万小时YouTube视频内容,此举激发了一场关于版权的讨论。在数据资源日益紧缺的背景下,公司不仅转录了视频,还从播客、有声读物、GitHub的编程代码、国际象棋游戏数据库以及Quizlet的学习资料中汲取了多元数据源。OpenAI将这些行为视为“合理使用”,但谷歌和YouTube的高层则对此表达了担忧,他们提到平台的服务条款明确禁止未授权的内容采集。与此同时,Meta也在探索如何解决数据获取的挑战,包括支付版权费或是直接购买出版内容的可能性。这些动作凸显了AI技术进步与现行版权法律之间的紧张局势。线索:@ZaiHuabot投稿:@TNSubmbot频道:@TestFlightCN

相关推荐

封面图片

OpenAI 转录了超过100万小时的 YouTube 视频来训练 GPT-4

OpenAI转录了超过100万小时的YouTube视频来训练GPT-4据《纽约时报》报道,OpenAI公司迫切需要大量训练数据,为此开发了Whisper音频转录模型来克服困难,转录了超过100万小时的YouTube视频来训练其最先进的大型语言模型GPT-4。该公司知道这在法律上存在问题,但相信这是合理使用。OpenAI总裁格雷格·布罗克曼亲自参与了所使用视频的收集。OpenAI发言人表示,该公司为其每个模型策划了“独特”的数据集,以“帮助他们了解世界”并保持其全球研究竞争力。并补充说,该公司使用“众多来源,包括公开数据和非公开数据的合作伙伴”,并且正在考虑生成自己的合成数据。据报道,该公司在2021年耗尽了有用的数据供应,并在耗尽其他资源后讨论了转录YouTube视频、播客和有声读物。——、

封面图片

OpenAI 使用超过一百万小时的 YouTube 视频训练 GPT-4

本周早些时候,《华尔街日报》报道称,AI公司在收集高质量训练数据时遇到了难题。今天,《》详细介绍了一些公司如何处理这个问题。不出所料,这涉及到了执行一些处于AI版权法模糊地带的事情。这个故事开始于OpenAI,报道称这家公司急于获取训练数据,开发了Whisper音频转录模型来克服这一难关,用超过一百万小时的YouTube视频来训练他们最先进的大型语言模型GPT-4。这是根据《纽约时报》的报道,该公司知道这在法律上是有争议的,但他们认为这属于合理使用。OpenAI总裁格雷格·布罗克曼亲自参与收集了被使用的视频,《纽约时报》如是写道。OpenAI的发言人LindsayHeld在给TheVerge的一封邮件中表示,该公司为其每一个模型策划了“独特”的数据集来“帮助他们理解世界”并保持全球研究竞争力。Held补充说,该公司使用了“包括公开可用数据和非公开数据的合作伙伴关系在内的众多来源”,并且它正在考虑生成自己的合成数据。《纽约时报》的文章还表示,该公司在2021年耗尽了有用的数据供应,并在消耗其他资源后讨论了转录YouTube视频、播客和有声书。那时,它已经在包括Github上的计算机代码、国际象棋移动数据库和Quizlet上的学校作业内容在内的数据上训练了其模型。谷歌发言人马特·布莱恩特在一封给TheVerge的电子邮件中表示,公司已经“看到了有关OpenAI活动的未经证实的报道”,并补充说,“我们的robots.txt文件和服务条款禁止未经授权的抓取或下载YouTube内容”,这与公司的使用条款相呼应。YouTube首席执行官尼尔·莫汉本周对OpenAI可能使用YouTube训练其Sora视频生成模型的可能性发表了类似的看法。布莱恩特表示,谷歌采取了“技术和法律措施”来阻止这种未授权的使用,“当我们有明确的法律或技术依据时”。标签:#OpenAI#版权频道:@GodlyNews1投稿:@GodlyNewsBot

封面图片

OpenAI和谷歌利用了YouTube视频转录来训练其人工智能模型

OpenAI和谷歌利用了YouTube视频转录来训练其人工智能模型就在几天前,YouTube首席执行官尼尔-莫汉(NealMohan)在接受彭博社采访时表示,OpenAI据称使用YouTube视频来训练其新的文本到视频生成器Sora将违反该平台的政策。据《纽约时报》报道,OpenAI使用其Whisper语音识别工具转录了超过100万小时的YouTube视频,然后用于训练GPT-4。TheInformation此前曾报道,OpenAI曾使用YouTube视频和播客来训练这两个人工智能系统。据报道,OpenAI总裁格雷格-布罗克曼(GregBrockman)也是这个团队的成员之一。Google发言人马特-布莱恩特(MattBryant)告诉《纽约时报》,根据Google的规定,"未经授权采集或下载YouTube内容"是不被允许的,同时他还表示,公司并不知道OpenAI使用过此类内容。不过,该报道称,Google有人知道但没有对OpenAI采取行动,因为Google自己也正在使用YouTube视频训练自己的人工智能模型。但Google告诉《纽约时报》,它只使用同意参加实验项目的创作者的视频。《纽约时报》的报道还称,Google在2022年6月调整了其隐私政策,以更广泛地涵盖使用公开内容(包括Google文档和Google工作表)来训练其人工智能模型和产品。布赖恩特告诉《纽约时报》,只有在选择使用Google实验功能的用户允许的情况下,Google才会这样做,而且该公司"并没有根据这一语言变化开始对其他类型的数据进行训练"。相关文章:YouTubeCEO表示OpenAI用其视频训练Sora将违反平台服务条款...PC版:https://www.cnbeta.com.tw/articles/soft/1426406.htm手机版:https://m.cnbeta.com.tw/view/1426406.htm

封面图片

OpenAI左脚踩右脚登天 让GPT-4帮人类训练GPT-4

OpenAI左脚踩右脚登天让GPT-4帮人类训练GPT-4OpenAI公布,其研究人员训练了一个基于GPT-4的模型,它被称为CriticGPT,用于捕捉ChatGPT代码输出中的错误。简单来说就是,CriticGPT让人能用GPT-4查找GPT-4的错误OpenAI称,如果通过CriticGPT获得帮助审查ChatGPT编写的代码,人类训练者的审查效果比没有获得这种帮助的人强60%;在CriticGPT帮助下,他们得出的批评结论比自己单独做的更全面。群友:狗溜狗关注频道@ZaiHuaPd频道爆料@ZaiHuabot

封面图片

GPT-4论文竟有隐藏线索:GPT-5或完成训练、OpenAI两年内接近AGI

GPT-4论文竟有隐藏线索:GPT-5或完成训练、OpenAI两年内接近AGI1.ARC(AlignmentResearchCenter)是一个非营利性研究机构,其使命是使未来的机器学习系统与人类利益保持一致。ARC的目标是训练AI模型,使其不会操纵、欺骗甚至伤害人类)。OpenAI曾经选择让ARC去测试评估GPT-4会不会主动避免自己被“挂掉”,说明此前必定出现过这种情况。OpenAICEOSamAltman认为人类需要对AI做更多的监管,以符合人类的利益。OpenAI担忧科技竞赛会导致安全标准的下降、不良规范的扩散、AI发展进程的加速,加剧与人工智能相关的社会风险。但是微软CEO和CTO希望OpenAI的模型能尽快让用户用起来。可以肯定的一点是OpenAI和微软在这件事的想法是相悖的。OpenAI雇佣了预测专家,来预测当他们部署了GPT-4之后会带来怎样的风险。“超级预测员”建议将GPT-4部署时间推迟6个月,也就是今年秋季左右;但很显然,OpenAI并没有采纳他们的建议。OpenAI这么做的原因,可能是来自微软的压力。2.OpenAI会协助超越它的公司:OpenAI做出了一个非常大胆的承诺:"如果另一家公司在我们之前实现了接近AGI(通用人工智能),那我们承诺不会跟它做竞争,相反,会协助完成那个项目。但这种情况发生的条件,可能是另一家公司需得在未来两年内,成功接近AGI的机会在一半或以上"而这里提到的AGI,OpenAI和Altam在官方博客中已经给出了定义——普遍比人类更聪明,并且有益于全人类的人工智能系统。3.GPT-4确实已经达到了人类的常识水平。博主在论文中找到了相关数据,在“人类”那一栏中,分数分布在了94-96.5之间。而GPT-4的95.3,便正好在这个区间之间。4.OpenAI在去年年底推出ChatGPT的时候,已经有了GPT-4。GPT-5可能已经完成训练5.像ChatGPT、GitHubCopilot这些工具导致某些工作的自动化。GPT-4的能力可以在某些特定领域中以人类10倍甚至更高的效率来完成。5.OpenAI让GPT-4学会拒绝的方法,叫做基于规则的奖励模型(RBRMs)。这种方法的工作流程:给GPT-4一组要遵守的原则,如果模型遵守了这些原则,那么就会提供相应的奖励。他认为OpenAI正在用人工智能的力量,让AI模型朝着符合人类原则的方向发展。()参考链接:[1]https://www.youtube.com/watch?v=ufQmq6X22rM[2]https://cdn.openai.com/papers/gpt-4.pdf投稿:@ZaiHuabot频道:@TestFlightCN

封面图片

▶ GPT 4: https://openai.com/research/gpt-4

▶GPT4:https://openai.com/research/gpt-4▶APIWaitlist:https://openai.com/waitlist/gpt-4-api▶GPT-4DeveloperLivestreamhttps://m.youtube.com/watch?v=outcGtbnMuQ看图……(后面补了个P9,直播里的手稿拍照转html)邮件原文(翻译byChatGPT)我们已经创建了GPT-4,这是我们最强大的模型。我们今天开始向API用户推出该模型。请于今天(3月14日)下午1点(太平洋时间)加入我们,观看GPT-4的现场演示。▶关于GPT-4由于其更广泛的通用知识和先进的推理能力,GPT-4可以更准确地解决困难问题。▶您可以通过以下方式了解更多信息:·GPT-4概述页面以及早期客户使用该模型构建的内容。·博客文章详细介绍了该模型的功能和局限性,包括评估结果。(一开始的那个链接)▶可用性·API等待列表:请注册我们的等待列表,以获得受限制的GPT-4API访问权限,该API使用与gpt-3.5-turbo相同的ChatCompletionsAPI。我们将从今天开始邀请一些开发人员,并逐渐扩大可用性和速率限制,以平衡容量和需求。(我也放在前面了)·优先访问:开发人员可以通过为OpenAIEvals贡献模型评估来获得GPT-4的优先API访问权限,这将有助于我们改进该模型,使其对所有人都更好。https://github.com/openai/evals·ChatGPTPlus:ChatGPTPlus订户将可以在chat.openai.com上使用GPT-4,并获得动态调整的使用上限。由于我们的容量非常有限,因此使用上限将取决于需求和系统性能。API访问仍将通过等待列表进行。▶API定价·具有8K上下文窗口(约13页文本)的gpt-4将每1K提示令牌收取0.03美元,每1K完成令牌收取0.06美元。·具有32K上下文窗口(约52页文本)的gpt-4-32k将每1K提示令牌收取0.06美元,每1K完成令牌收取0.12美元。▶直播

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人