OpenAI 转录了超过100万小时的 YouTube 视频来训练 GPT-4

OpenAI转录了超过100万小时的YouTube视频来训练GPT-4据《纽约时报》报道，OpenAI公司迫切需要大量训练数据，为此开发了Whisper音频转录模型来克服困难，转录了超过100万小时的YouTube视频来训练其最先进的大型语言模型GPT-4。该公司知道这在法律上存在问题，但相信这是合理使用。OpenAI总裁格雷格·布罗克曼亲自参与了所使用视频的收集。OpenAI发言人表示，该公司为其每个模型策划了“独特”的数据集，以“帮助他们了解世界”并保持其全球研究竞争力。并补充说，该公司使用“众多来源，包括公开数据和非公开数据的合作伙伴”，并且正在考虑生成自己的合成数据。据报道，该公司在2021年耗尽了有用的数据供应，并在耗尽其他资源后讨论了转录YouTube视频、播客和有声读物。——、

在Telegram中查看

相关推荐

GPT-4 训练引发版权争议：OpenAI 转录百万小时 YouTube 视频

GPT-4训练引发版权争议：OpenAI转录百万小时YouTube视频OpenAI为开发其尖端的GPT-4语言模型，转录了逾百万小时YouTube视频内容，此举激发了一场关于版权的讨论。在数据资源日益紧缺的背景下，公司不仅转录了视频，还从播客、有声读物、GitHub的编程代码、国际象棋游戏数据库以及Quizlet的学习资料中汲取了多元数据源。OpenAI将这些行为视为“合理使用”，但谷歌和YouTube的高层则对此表达了担忧，他们提到平台的服务条款明确禁止未授权的内容采集。与此同时，Meta也在探索如何解决数据获取的挑战，包括支付版权费或是直接购买出版内容的可能性。这些动作凸显了AI技术进步与现行版权法律之间的紧张局势。线索：@ZaiHuabot投稿：@TNSubmbot频道：@TestFlightCN

OpenAI 使用超过一百万小时的 YouTube 视频训练 GPT-4

本周早些时候，《华尔街日报》报道称，AI公司在收集高质量训练数据时遇到了难题。今天，《》详细介绍了一些公司如何处理这个问题。不出所料，这涉及到了执行一些处于AI版权法模糊地带的事情。这个故事开始于OpenAI，报道称这家公司急于获取训练数据，开发了Whisper音频转录模型来克服这一难关，用超过一百万小时的YouTube视频来训练他们最先进的大型语言模型GPT-4。这是根据《纽约时报》的报道，该公司知道这在法律上是有争议的，但他们认为这属于合理使用。OpenAI总裁格雷格·布罗克曼亲自参与收集了被使用的视频，《纽约时报》如是写道。OpenAI的发言人LindsayHeld在给TheVerge的一封邮件中表示，该公司为其每一个模型策划了“独特”的数据集来“帮助他们理解世界”并保持全球研究竞争力。Held补充说，该公司使用了“包括公开可用数据和非公开数据的合作伙伴关系在内的众多来源”，并且它正在考虑生成自己的合成数据。《纽约时报》的文章还表示，该公司在2021年耗尽了有用的数据供应，并在消耗其他资源后讨论了转录YouTube视频、播客和有声书。那时，它已经在包括Github上的计算机代码、国际象棋移动数据库和Quizlet上的学校作业内容在内的数据上训练了其模型。谷歌发言人马特·布莱恩特在一封给TheVerge的电子邮件中表示，公司已经“看到了有关OpenAI活动的未经证实的报道”，并补充说，“我们的robots.txt文件和服务条款禁止未经授权的抓取或下载YouTube内容”，这与公司的使用条款相呼应。YouTube首席执行官尼尔·莫汉本周对OpenAI可能使用YouTube训练其Sora视频生成模型的可能性发表了类似的看法。布莱恩特表示，谷歌采取了“技术和法律措施”来阻止这种未授权的使用，“当我们有明确的法律或技术依据时”。标签:#OpenAI#版权频道:@GodlyNews1投稿:@GodlyNewsBot

OpenAI和谷歌利用了YouTube视频转录来训练其人工智能模型

OpenAI和谷歌利用了YouTube视频转录来训练其人工智能模型就在几天前，YouTube首席执行官尼尔-莫汉（NealMohan）在接受彭博社采访时表示，OpenAI据称使用YouTube视频来训练其新的文本到视频生成器Sora将违反该平台的政策。据《纽约时报》报道，OpenAI使用其Whisper语音识别工具转录了超过100万小时的YouTube视频，然后用于训练GPT-4。TheInformation此前曾报道，OpenAI曾使用YouTube视频和播客来训练这两个人工智能系统。据报道，OpenAI总裁格雷格-布罗克曼（GregBrockman）也是这个团队的成员之一。Google发言人马特-布莱恩特（MattBryant）告诉《纽约时报》，根据Google的规定，"未经授权采集或下载YouTube内容"是不被允许的，同时他还表示，公司并不知道OpenAI使用过此类内容。不过，该报道称，Google有人知道但没有对OpenAI采取行动，因为Google自己也正在使用YouTube视频训练自己的人工智能模型。但Google告诉《纽约时报》，它只使用同意参加实验项目的创作者的视频。《纽约时报》的报道还称，Google在2022年6月调整了其隐私政策，以更广泛地涵盖使用公开内容（包括Google文档和Google工作表）来训练其人工智能模型和产品。布赖恩特告诉《纽约时报》，只有在选择使用Google实验功能的用户允许的情况下，Google才会这样做，而且该公司"并没有根据这一语言变化开始对其他类型的数据进行训练"。相关文章:YouTubeCEO表示OpenAI用其视频训练Sora将违反平台服务条款...PC版：https://www.cnbeta.com.tw/articles/soft/1426406.htm手机版：https://m.cnbeta.com.tw/view/1426406.htm

OpenAI左脚踩右脚登天让GPT-4帮人类训练GPT-4

OpenAI左脚踩右脚登天让GPT-4帮人类训练GPT-4OpenAI公布，其研究人员训练了一个基于GPT-4的模型，它被称为CriticGPT，用于捕捉ChatGPT代码输出中的错误。简单来说就是，CriticGPT让人能用GPT-4查找GPT-4的错误OpenAI称，如果通过CriticGPT获得帮助审查ChatGPT编写的代码，人类训练者的审查效果比没有获得这种帮助的人强60%；在CriticGPT帮助下，他们得出的批评结论比自己单独做的更全面。群友：狗溜狗关注频道@ZaiHuaPd频道爆料@ZaiHuabot

OpenAI公布GPT-4：更强更可靠可在考试中超过90%的人类

OpenAI公布GPT-4：更强更可靠可在考试中超过90%的人类OpenAI于2020年发布了GPT（生成型预训练变换模型）-3（生成型预训练变换模型），并将其与GPT-3.5分别用于创建Dall-E和聊天机器人ChatGPT，这两款产品极大地吸引了公众的关注，并刺激其他科技公司更积极地追求人工智能（AI）。OpenAI周二表示，在内部评估中，相较于GPT-3.5，GPT-4产生正确回应的可能性要高出40%。而且GPT-4是多模态的，同时支持文本和图像输入功能。OpenAI称，GPT-4比以前的版本“更大”，这意味着其已经在更多的数据上进行了训练，并且在模型文件中有更多的权重，这使得它的运行成本更高。据OpenAI介绍，在某些情况下，GPT-4比之前的GPT-3.5版本有了巨大改进，新模型将产生更少的错误答案，更少地偏离谈话轨道，更少地谈论禁忌话题，甚至在许多标准化测试中比人类表现得更好。例如，GPT-4在模拟律师资格考试的成绩在考生中排名前10%左右，在SAT阅读考试中排名前7%左右，在SAT数学考试中排名前11%左右。OpenAI表示，虽然两个版本在日常对话中看起来很相似，但当任务复杂到一定程度时，差异就表现出来了，GPT-4更可靠、更有创造力，能够处理更微妙的指令。不过，OpenAI也警告称，GPT-4还不完美，在许多情况下，它的能力不如人类。该公司表示：“GPT-4仍有许多已知的局限性，我们正在努力解决，比如社会偏见、幻觉和对抗性提示。”OpenAI透露，摩根士丹利正在使用GPT-4来组织数据，而电子支付公司Stripe正在测试GPT-4是否有助于打击欺诈。其他客户还包括语言学习公司Duolingo、KhanAcademy和冰岛政府。OpenAI合作伙伴微软周二表示，新版必应搜索引擎将使用GPT-4。...PC版：https://www.cnbeta.com.tw/articles/soft/1349455.htm手机版：https://m.cnbeta.com.tw/view/1349455.htm

GPT-4论文竟有隐藏线索：GPT-5或完成训练、OpenAI两年内接近AGI

GPT-4论文竟有隐藏线索：GPT-5或完成训练、OpenAI两年内接近AGI1.ARC(AlignmentResearchCenter)是一个非营利性研究机构，其使命是使未来的机器学习系统与人类利益保持一致。ARC的目标是训练AI模型，使其不会操纵、欺骗甚至伤害人类）。OpenAI曾经选择让ARC去测试评估GPT-4会不会主动避免自己被“挂掉”，说明此前必定出现过这种情况。OpenAICEOSamAltman认为人类需要对AI做更多的监管，以符合人类的利益。OpenAI担忧科技竞赛会导致安全标准的下降、不良规范的扩散、AI发展进程的加速，加剧与人工智能相关的社会风险。但是微软CEO和CTO希望OpenAI的模型能尽快让用户用起来。可以肯定的一点是OpenAI和微软在这件事的想法是相悖的。OpenAI雇佣了预测专家，来预测当他们部署了GPT-4之后会带来怎样的风险。“超级预测员”建议将GPT-4部署时间推迟6个月，也就是今年秋季左右；但很显然，OpenAI并没有采纳他们的建议。OpenAI这么做的原因，可能是来自微软的压力。2.OpenAI会协助超越它的公司：OpenAI做出了一个非常大胆的承诺："如果另一家公司在我们之前实现了接近AGI（通用人工智能），那我们承诺不会跟它做竞争，相反，会协助完成那个项目。但这种情况发生的条件，可能是另一家公司需得在未来两年内，成功接近AGI的机会在一半或以上"而这里提到的AGI，OpenAI和Altam在官方博客中已经给出了定义——普遍比人类更聪明，并且有益于全人类的人工智能系统。3.GPT-4确实已经达到了人类的常识水平。博主在论文中找到了相关数据，在“人类”那一栏中，分数分布在了94-96.5之间。而GPT-4的95.3，便正好在这个区间之间。4.OpenAI在去年年底推出ChatGPT的时候，已经有了GPT-4。GPT-5可能已经完成训练5.像ChatGPT、GitHubCopilot这些工具导致某些工作的自动化。GPT-4的能力可以在某些特定领域中以人类10倍甚至更高的效率来完成。5.OpenAI让GPT-4学会拒绝的方法，叫做基于规则的奖励模型（RBRMs）。这种方法的工作流程：给GPT-4一组要遵守的原则，如果模型遵守了这些原则，那么就会提供相应的奖励。他认为OpenAI正在用人工智能的力量，让AI模型朝着符合人类原则的方向发展。()参考链接：[1]https://www.youtube.com/watch?v=ufQmq6X22rM[2]https://cdn.openai.com/papers/gpt-4.pdf投稿：@ZaiHuabot频道：@TestFlightCN

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人