OpenAI 转录了超过100万小时的 YouTube 视频来训练 GPT-4

OpenAI转录了超过100万小时的YouTube视频来训练GPT-4据《纽约时报》报道,OpenAI公司迫切需要大量训练数据,为此开发了Whisper音频转录模型来克服困难,转录了超过100万小时的YouTube视频来训练其最先进的大型语言模型GPT-4。该公司知道这在法律上存在问题,但相信这是合理使用。OpenAI总裁格雷格·布罗克曼亲自参与了所使用视频的收集。OpenAI发言人表示,该公司为其每个模型策划了“独特”的数据集,以“帮助他们了解世界”并保持其全球研究竞争力。并补充说,该公司使用“众多来源,包括公开数据和非公开数据的合作伙伴”,并且正在考虑生成自己的合成数据。据报道,该公司在2021年耗尽了有用的数据供应,并在耗尽其他资源后讨论了转录YouTube视频、播客和有声读物。——、

相关推荐

封面图片

GPT-4 训练引发版权争议:OpenAI 转录百万小时 YouTube 视频

GPT-4训练引发版权争议:OpenAI转录百万小时YouTube视频OpenAI为开发其尖端的GPT-4语言模型,转录了逾百万小时YouTube视频内容,此举激发了一场关于版权的讨论。在数据资源日益紧缺的背景下,公司不仅转录了视频,还从播客、有声读物、GitHub的编程代码、国际象棋游戏数据库以及Quizlet的学习资料中汲取了多元数据源。OpenAI将这些行为视为“合理使用”,但谷歌和YouTube的高层则对此表达了担忧,他们提到平台的服务条款明确禁止未授权的内容采集。与此同时,Meta也在探索如何解决数据获取的挑战,包括支付版权费或是直接购买出版内容的可能性。这些动作凸显了AI技术进步与现行版权法律之间的紧张局势。线索:@ZaiHuabot投稿:@TNSubmbot频道:@TestFlightCN

封面图片

OpenAI 使用超过一百万小时的 YouTube 视频训练 GPT-4

本周早些时候,《华尔街日报》报道称,AI公司在收集高质量训练数据时遇到了难题。今天,《》详细介绍了一些公司如何处理这个问题。不出所料,这涉及到了执行一些处于AI版权法模糊地带的事情。这个故事开始于OpenAI,报道称这家公司急于获取训练数据,开发了Whisper音频转录模型来克服这一难关,用超过一百万小时的YouTube视频来训练他们最先进的大型语言模型GPT-4。这是根据《纽约时报》的报道,该公司知道这在法律上是有争议的,但他们认为这属于合理使用。OpenAI总裁格雷格·布罗克曼亲自参与收集了被使用的视频,《纽约时报》如是写道。OpenAI的发言人LindsayHeld在给TheVerge的一封邮件中表示,该公司为其每一个模型策划了“独特”的数据集来“帮助他们理解世界”并保持全球研究竞争力。Held补充说,该公司使用了“包括公开可用数据和非公开数据的合作伙伴关系在内的众多来源”,并且它正在考虑生成自己的合成数据。《纽约时报》的文章还表示,该公司在2021年耗尽了有用的数据供应,并在消耗其他资源后讨论了转录YouTube视频、播客和有声书。那时,它已经在包括Github上的计算机代码、国际象棋移动数据库和Quizlet上的学校作业内容在内的数据上训练了其模型。谷歌发言人马特·布莱恩特在一封给TheVerge的电子邮件中表示,公司已经“看到了有关OpenAI活动的未经证实的报道”,并补充说,“我们的robots.txt文件和服务条款禁止未经授权的抓取或下载YouTube内容”,这与公司的使用条款相呼应。YouTube首席执行官尼尔·莫汉本周对OpenAI可能使用YouTube训练其Sora视频生成模型的可能性发表了类似的看法。布莱恩特表示,谷歌采取了“技术和法律措施”来阻止这种未授权的使用,“当我们有明确的法律或技术依据时”。标签:#OpenAI#版权频道:@GodlyNews1投稿:@GodlyNewsBot

封面图片

OpenAI和谷歌利用了YouTube视频转录来训练其人工智能模型

OpenAI和谷歌利用了YouTube视频转录来训练其人工智能模型就在几天前,YouTube首席执行官尼尔-莫汉(NealMohan)在接受彭博社采访时表示,OpenAI据称使用YouTube视频来训练其新的文本到视频生成器Sora将违反该平台的政策。据《纽约时报》报道,OpenAI使用其Whisper语音识别工具转录了超过100万小时的YouTube视频,然后用于训练GPT-4。TheInformation此前曾报道,OpenAI曾使用YouTube视频和播客来训练这两个人工智能系统。据报道,OpenAI总裁格雷格-布罗克曼(GregBrockman)也是这个团队的成员之一。Google发言人马特-布莱恩特(MattBryant)告诉《纽约时报》,根据Google的规定,"未经授权采集或下载YouTube内容"是不被允许的,同时他还表示,公司并不知道OpenAI使用过此类内容。不过,该报道称,Google有人知道但没有对OpenAI采取行动,因为Google自己也正在使用YouTube视频训练自己的人工智能模型。但Google告诉《纽约时报》,它只使用同意参加实验项目的创作者的视频。《纽约时报》的报道还称,Google在2022年6月调整了其隐私政策,以更广泛地涵盖使用公开内容(包括Google文档和Google工作表)来训练其人工智能模型和产品。布赖恩特告诉《纽约时报》,只有在选择使用Google实验功能的用户允许的情况下,Google才会这样做,而且该公司"并没有根据这一语言变化开始对其他类型的数据进行训练"。相关文章:YouTubeCEO表示OpenAI用其视频训练Sora将违反平台服务条款...PC版:https://www.cnbeta.com.tw/articles/soft/1426406.htm手机版:https://m.cnbeta.com.tw/view/1426406.htm

封面图片

OpenAI左脚踩右脚登天 让GPT-4帮人类训练GPT-4

OpenAI左脚踩右脚登天让GPT-4帮人类训练GPT-4OpenAI公布,其研究人员训练了一个基于GPT-4的模型,它被称为CriticGPT,用于捕捉ChatGPT代码输出中的错误。简单来说就是,CriticGPT让人能用GPT-4查找GPT-4的错误OpenAI称,如果通过CriticGPT获得帮助审查ChatGPT编写的代码,人类训练者的审查效果比没有获得这种帮助的人强60%;在CriticGPT帮助下,他们得出的批评结论比自己单独做的更全面。群友:狗溜狗关注频道@ZaiHuaPd频道爆料@ZaiHuabot

封面图片

OpenAI公布GPT-4:更强更可靠 可在考试中超过90%的人类

OpenAI公布GPT-4:更强更可靠可在考试中超过90%的人类OpenAI于2020年发布了GPT(生成型预训练变换模型)-3(生成型预训练变换模型),并将其与GPT-3.5分别用于创建Dall-E和聊天机器人ChatGPT,这两款产品极大地吸引了公众的关注,并刺激其他科技公司更积极地追求人工智能(AI)。OpenAI周二表示,在内部评估中,相较于GPT-3.5,GPT-4产生正确回应的可能性要高出40%。而且GPT-4是多模态的,同时支持文本和图像输入功能。OpenAI称,GPT-4比以前的版本“更大”,这意味着其已经在更多的数据上进行了训练,并且在模型文件中有更多的权重,这使得它的运行成本更高。据OpenAI介绍,在某些情况下,GPT-4比之前的GPT-3.5版本有了巨大改进,新模型将产生更少的错误答案,更少地偏离谈话轨道,更少地谈论禁忌话题,甚至在许多标准化测试中比人类表现得更好。例如,GPT-4在模拟律师资格考试的成绩在考生中排名前10%左右,在SAT阅读考试中排名前7%左右,在SAT数学考试中排名前11%左右。OpenAI表示,虽然两个版本在日常对话中看起来很相似,但当任务复杂到一定程度时,差异就表现出来了,GPT-4更可靠、更有创造力,能够处理更微妙的指令。不过,OpenAI也警告称,GPT-4还不完美,在许多情况下,它的能力不如人类。该公司表示:“GPT-4仍有许多已知的局限性,我们正在努力解决,比如社会偏见、幻觉和对抗性提示。”OpenAI透露,摩根士丹利正在使用GPT-4来组织数据,而电子支付公司Stripe正在测试GPT-4是否有助于打击欺诈。其他客户还包括语言学习公司Duolingo、KhanAcademy和冰岛政府。OpenAI合作伙伴微软周二表示,新版必应搜索引擎将使用GPT-4。...PC版:https://www.cnbeta.com.tw/articles/soft/1349455.htm手机版:https://m.cnbeta.com.tw/view/1349455.htm

封面图片

GPT-4论文竟有隐藏线索:GPT-5或完成训练、OpenAI两年内接近AGI

GPT-4论文竟有隐藏线索:GPT-5或完成训练、OpenAI两年内接近AGI1.ARC(AlignmentResearchCenter)是一个非营利性研究机构,其使命是使未来的机器学习系统与人类利益保持一致。ARC的目标是训练AI模型,使其不会操纵、欺骗甚至伤害人类)。OpenAI曾经选择让ARC去测试评估GPT-4会不会主动避免自己被“挂掉”,说明此前必定出现过这种情况。OpenAICEOSamAltman认为人类需要对AI做更多的监管,以符合人类的利益。OpenAI担忧科技竞赛会导致安全标准的下降、不良规范的扩散、AI发展进程的加速,加剧与人工智能相关的社会风险。但是微软CEO和CTO希望OpenAI的模型能尽快让用户用起来。可以肯定的一点是OpenAI和微软在这件事的想法是相悖的。OpenAI雇佣了预测专家,来预测当他们部署了GPT-4之后会带来怎样的风险。“超级预测员”建议将GPT-4部署时间推迟6个月,也就是今年秋季左右;但很显然,OpenAI并没有采纳他们的建议。OpenAI这么做的原因,可能是来自微软的压力。2.OpenAI会协助超越它的公司:OpenAI做出了一个非常大胆的承诺:"如果另一家公司在我们之前实现了接近AGI(通用人工智能),那我们承诺不会跟它做竞争,相反,会协助完成那个项目。但这种情况发生的条件,可能是另一家公司需得在未来两年内,成功接近AGI的机会在一半或以上"而这里提到的AGI,OpenAI和Altam在官方博客中已经给出了定义——普遍比人类更聪明,并且有益于全人类的人工智能系统。3.GPT-4确实已经达到了人类的常识水平。博主在论文中找到了相关数据,在“人类”那一栏中,分数分布在了94-96.5之间。而GPT-4的95.3,便正好在这个区间之间。4.OpenAI在去年年底推出ChatGPT的时候,已经有了GPT-4。GPT-5可能已经完成训练5.像ChatGPT、GitHubCopilot这些工具导致某些工作的自动化。GPT-4的能力可以在某些特定领域中以人类10倍甚至更高的效率来完成。5.OpenAI让GPT-4学会拒绝的方法,叫做基于规则的奖励模型(RBRMs)。这种方法的工作流程:给GPT-4一组要遵守的原则,如果模型遵守了这些原则,那么就会提供相应的奖励。他认为OpenAI正在用人工智能的力量,让AI模型朝着符合人类原则的方向发展。()参考链接:[1]https://www.youtube.com/watch?v=ufQmq6X22rM[2]https://cdn.openai.com/papers/gpt-4.pdf投稿:@ZaiHuabot频道:@TestFlightCN

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人