OpenAI希望与机构合作建立新的人工智能训练数据集

OpenAI希望与机构合作建立新的人工智能训练数据集模型会以有害的方式放大这些缺陷。现在，OpenAI表示希望通过与外部机构合作创建新的数据集来消除这些缺陷，并希望这些数据集能够得到改进。OpenAI今天宣布了"数据伙伴关系"（DataPartnerships）计划，该计划旨在与第三方机构合作，建立用于人工智能模型训练的公共和私有数据集。OpenAI在一篇博文中表示，数据合作伙伴关系旨在"让更多组织能够帮助引导人工智能的未来"，并"从更有用的模型中获益"。"为了最终制造出安全且有益于全人类的[人工智能]，我们希望人工智能模型能够深入理解所有主题、行业、文化和语言，这就需要尽可能广泛的训练数据集，"OpenAI写道。"将您的内容纳入其中可以增加人工智能模型对您所在领域的理解，从而对您更有帮助。"OpenAI表示，作为数据合作伙伴计划的一部分，它将收集"反映全人类社会"的"大规模"数据集，这些数据集目前还不容易在网上获取。该公司计划在包括图像、音频和视频在内的各种模式下开展工作，但它特别希望收集能"表达人类意图"的数据（如长篇写作或对话），这些数据将跨越不同的语言、主题和格式。OpenAI表示，如有必要，它将与企业合作，使用光学字符识别和自动语音识别工具对训练数据进行数字化处理，并在必要时删除敏感或个人信息。一开始，OpenAI希望创建两种类型的数据集：一种是公开的开源数据集，任何人都可以在人工智能模型训练中使用；另一种是私有数据集，用于训练专有的人工智能模型。OpenAI表示，私有数据集的对象是那些希望数据保密，但又希望OpenAI的模型能够更好地理解其领域的组织；到目前为止，OpenAI已经与冰岛政府和Miðeindehf合作，提高了GPT-4的冰岛语能力，并与自由法律项目合作，提高了模型对法律文件的理解能力。"总之，我们正在寻求合作伙伴，帮助我们教会人工智能理解我们的世界，以便最大限度地帮助每个人，"OpenAI写道。那么，OpenAI能比之前的许多数据集构建工作做得更好吗？暂时还不太确定--最大限度地减少数据集的偏差是困扰世界上许多专家的难题。至少，希望该公司能对整个过程保持透明--以及在创建这些数据集时不可避免地遇到的挑战。尽管这篇博文用词华丽，但其中似乎也有明显的商业动机，那就是以牺牲他人利益为代价来提高OpenAI模型的性能，而且还不给数据所有者任何补偿。这完全符合OpenAI的权利。但考虑到一些创作者的公开信和诉讼，称OpenAI在未经他们许可或支付报酬的情况下，用他们的作品训练了许多模型，这似乎有点听不进去。...PC版：https://www.cnbeta.com.tw/articles/soft/1395783.htm手机版：https://m.cnbeta.com.tw/view/1395783.htm

在Telegram中查看

相关推荐

OpenAI 表示已开始训练新的旗舰人工智能模型

OpenAI表示已开始训练新的旗舰人工智能模型OpenAI周二表示，它已开始训练一种新的旗舰人工智能模型，该模型将取代驱动其流行在线聊天机器人ChatGPT的GPT-4技术。OpenAI在一篇博客文章中表示，希望新模型能够带来“更高水平的能力”，因为该公司致力于打造“通用人工智能”，即能够做任何人类大脑能做的事情的机器。新模型将成为人工智能产品的引擎，包括聊天机器人、类似于苹果Siri的数字助理、搜索引擎和图像生成器。——，

【OpenAI将用新方法来训练模型，以对抗人工智能“幻觉】

【OpenAI将用新方法来训练模型，以对抗人工智能“幻觉】6月1日消息，OpenAI发布的最新研究论文显示，该公司正在用一种新的方法来训练人工智能(AI)模型，以对抗人工智能“幻觉”。人工智能幻觉指的是人工智能模型生成内容的能力，这些内容不是基于任何现实世界的数据，而是模型自己想象的产物。人们担心这种幻觉可能带来的潜在问题，包括道德、社会和实际问题。OpenAI的研究人员在报告中表示，即使是最先进的人工智能模型也很容易产生谎言，它们在不确定的时刻往往表现出捏造事实的倾向。而这些幻觉在需要多步骤推理的领域尤其严重，因为一个逻辑错误就足以破坏一个更大的解决方案。该公司提出的新策略是：训练人工智能模型时，奖励每个正确的推理步骤，而不仅仅是简单地奖励正确的最终结论。根据研究人员的说法，这种方法被称为“过程监督”，而不是结果监督，它可能会提高人工智能的性能与准确性，因为这种策略鼓励模型更多地遵循类似人类的“思维链”。

OpenAI 正在探索制造自己的人工智能芯片

OpenAI正在探索制造自己的人工智能芯片据路透社报道，随着训练人工智能模型的芯片短缺情况日益恶化，公司内部关于人工智能芯片战略的讨论至少从去年开始就一直在进行。据报道，OpenAI正在考虑采取多种策略来推进其芯片雄心，包括收购一家AI芯片制造商或加大内部设计芯片的力度。据路透社报道，OpenAI首席执行官SamAltman已将收购更多人工智能芯片作为公司的首要任务。目前，OpenAI与大多数竞争对手一样，依靠基于GPU的硬件来开发ChatGPT、GPT-4和DALL-E3等模型。GPU并行执行多项计算的能力使其非常适合训练当今最强大的人工智能。但生成式人工智能的蓬勃发展——对于Nvidia等GPU制造商来说是一笔意外之财——却给GPU供应链带来了巨大压力。微软正在与AMD合作开发一款名为Athena的内部AI芯片，据说OpenAI正在测试该芯片。OpenAI在研发方面的大力投资处于有利地位。该公司已筹集超过110亿美元的风险投资，年收入接近10亿美元。——

人工智能对人工智能生成的内容进行训练将导致人工智能崩溃

人工智能对人工智能生成的内容进行训练将导致人工智能崩溃用于训练大型语言模型的数据最初来自人类来源，如书籍、文章、照片等，这些都是在没有人工智能的帮助下创建的。但随着越来越多的人使用人工智能来制作和发布内容，一个明显的问题出现了：当人工智能生成的内容在互联网上扩散时，人工智能模型开始对其进行训练。研究人员发现，“在训练中使用模型生成的内容会导致所产生的模型出现不可逆转的缺陷。”他们研究了文本到文本和图像到图像的人工智能生成模型的概率分布，得出结论：“从其他模型产生的数据中学习会导致模型崩溃——这是一个退化的过程，并且随着时间的推移，模型会忘记真正的基础数据分布。”他们观察到模型崩溃发生得如此之快：模型可以迅速忘记它们最初学习的大部分原始数据。这导致它们随着时间的推移，表现越来越差，错误越来越多。来源，来自：雷锋频道：@kejiqu群组：@kejiquchat投稿：@kejiqubot

研究发现：用人工智能生成的图像训练出的人工智能产生了糟糕的结果。

研究发现：用人工智能生成的图像训练出的人工智能产生了糟糕的结果。斯坦福大学和莱斯大学的研究人员发现，生成式人工智能模型需要“新鲜的真实数据”，否则输出的质量就会下降。这对摄影师和其他创作者来说是个好消息，因为研究人员发现，训练数据集中的合成图像会放大人工痕迹，使人工智能画出的人类看起来越来越不像真人。研究小组将这种状况命名为“模型自噬障碍”。如果自噬循环的每一代都没有足够的新鲜真实数据，未来的生成模型注定会逐渐降低其质量或多样性。如果该研究论文是正确的，那么这意味着人工智能将无法开发出无穷无尽的数据源。人工智能仍然需要真实、高质量的图像来不断进步，而不是依赖自己的输出。这意味着生成式人工智能将需要摄影师。——

OpenAI和谷歌利用了YouTube视频转录来训练其人工智能模型

OpenAI和谷歌利用了YouTube视频转录来训练其人工智能模型就在几天前，YouTube首席执行官尼尔-莫汉（NealMohan）在接受彭博社采访时表示，OpenAI据称使用YouTube视频来训练其新的文本到视频生成器Sora将违反该平台的政策。据《纽约时报》报道，OpenAI使用其Whisper语音识别工具转录了超过100万小时的YouTube视频，然后用于训练GPT-4。TheInformation此前曾报道，OpenAI曾使用YouTube视频和播客来训练这两个人工智能系统。据报道，OpenAI总裁格雷格-布罗克曼（GregBrockman）也是这个团队的成员之一。Google发言人马特-布莱恩特（MattBryant）告诉《纽约时报》，根据Google的规定，"未经授权采集或下载YouTube内容"是不被允许的，同时他还表示，公司并不知道OpenAI使用过此类内容。不过，该报道称，Google有人知道但没有对OpenAI采取行动，因为Google自己也正在使用YouTube视频训练自己的人工智能模型。但Google告诉《纽约时报》，它只使用同意参加实验项目的创作者的视频。《纽约时报》的报道还称，Google在2022年6月调整了其隐私政策，以更广泛地涵盖使用公开内容（包括Google文档和Google工作表）来训练其人工智能模型和产品。布赖恩特告诉《纽约时报》，只有在选择使用Google实验功能的用户允许的情况下，Google才会这样做，而且该公司"并没有根据这一语言变化开始对其他类型的数据进行训练"。相关文章:YouTubeCEO表示OpenAI用其视频训练Sora将违反平台服务条款...PC版：https://www.cnbeta.com.tw/articles/soft/1426406.htm手机版：https://m.cnbeta.com.tw/view/1426406.htm

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人