众包工人用 AI 为 AI 做数据标注工作

众包工人用AI为AI做数据标注工作AI模型是建立在人类劳动的基础之上的，高质量的数据标注对AI模型至关重要，AI公司通常会雇佣廉价的众包工人做一些数据标注工作。但研究显示，随着AI聊天机器人，如ChatGPT的流行，众包工人开始利用AI做这些数据标注的工作。瑞士洛桑联邦理工学院的研究人员招募了44名众包工人来对16篇医学研究论文总结摘要，根据记录的击键情况，比如按下复制快捷键等，他们估计有33-46%的摘要文本是用AI生成的。消息来源：关联阅读：投稿：@ZaiHuaBot频道：@TestFlightCN

在Telegram中查看

相关推荐

ChatGPT 在文本标注任务中的表现超过了众包工人

苏黎世大学的研究人员在预印本平台arXiv上发表论文，报告OpenAI的AI聊天机器人ChatGPT在文本标注任务中的表现超过了众包工人。大量的自然语言处理（NLP）应用需要高质量的标注数据，此类任务可根据复杂程度和规模交给亚马逊众包平台MTurk上的众包工人或专业的标注者去完成。研究人员使用了包含2,382则推文的样本，对比了ChatGPT和众包工人以及专业标注者的表现。结果显示，ChatGPT在五项任务中有四项超过了众包工人，在评估一致性（intercoderagreement）上超过了众包工人以及专业标注者。更重要的是ChatGPT的标注成本每条不到0.003美元，是众包工人二十分之一。研究显示大语言模型可显著提高文本分类的效率。()投稿：@ZaiHuabot频道：@TestFlightCN

AI 标注员都开始用 AI 了。

AI标注员都开始用AI了。又一条路锁死。我们在亚马逊机械土耳其重新运行了一项关于摘要总结的任务，并通过键盘击键检测和合成文本分类的组合，估计完成任务的众包工作者中有33-46%使用了LLMs。

MovieLLM: 用AI合成电影数据用来训练AI对长视频理解

MovieLLM:用AI合成电影数据用来训练AI对长视频理解MovieLLM是由复旦大学和腾讯PCG的研究人员共同开发的一个新颖框架，能够从简单的文本提示中生成高质量、电影级别的视频数据。MovieLLM能仅仅通过一个词或一个句子就能创作出一部完整的电影。MovieLLM旨在为长视频创建合成的高质量数据。这个框架结合了GPT-4和文本到图像的模型，以生成详细的剧本和相应的视觉内容。通俗来讲就是：MovieLLM通过合成电影数据为人工智能模型提供训练材料，使它们能够更好地理解和生成长视频内容。#框架

国家数据局：将开展数据标注基地试点促人工智能产业发展

国家数据局：将开展数据标注基地试点促人工智能产业发展首次全国数据工作会议于4月1日到2日在北京召开。国家数据局方面最新透露，接下来，将开展数据标注基地试点。会上明确，探索建设国家级数据标注基地，充分发挥地方配套支撑作用，在数据标注产业的生态构建、能力提升和场景应用等方面先行先试，集聚龙头企业，促进区域人工智能产业生态发展。另外，国家数据局将开展深化数字经济创新发展试验区、数据要素综合试验区、数据基础制度试点、数据资源开发利用试点、数据基础设施建设试点等一系列试点试验工作。

研究表明用AI产生的语料来训练AI将使其退化并最终崩溃

研究表明用AI产生的语料来训练AI将使其退化并最终崩溃现在，随着越来越多的人使用AI来制作和发布内容，一个明显的问题出现了：当AI生成的内容在互联网上激增并且AI模型开始用其进行训练，而不是使用主要人类生成的内容时，会发生什么？来自英国和加拿大的一组研究人员已经研究了这个问题，并且最近在开放获取期刊arXiv上发表了一篇关于他们工作的论文。他们的发现令当前的生成式AI技术及其未来令人担忧：“我们发现在训练中使用模型生成的内容会导致生成的模型出现不可逆转的缺陷。”研究人员专门研究了文本到文本和图像到图像AI生成模型的概率分布，得出结论：“从其他模型生成的数据中学习会导致模型崩溃——一个退化过程，随着时间的推移，模型会忘记真正的底层数据分布……这个过程是不可避免的，即使对于具有近乎理想的长期学习条件的情况也是如此。”“随着时间的推移，生成数据中的错误会复合并最终迫使从生成数据中学习的模型进一步错误地感知现实，”该论文的主要作者之一IliaShumailov在给VentureBeat的电子邮件中写道。“我们惊讶地观察到模型崩溃发生的速度有多快：模型可以迅速忘记他们最初从中学习的大部分原始数据。”换句话说：当AI训练模型接触到更多AI生成的数据时，它的性能会随着时间的推移而变差，在其生成的响应和内容中产生更多错误，并在其响应中产生更少的非错误多样性。——额外编辑：研究人员同样担忧，目前互联网上AI生成内容正在迅速增加，训练下一代ai的数据正在被迅速污染。

Genie：一种新的生成式交互环境模型，能通过无监督学习，用未标注的互联网视频数据训练而成。

：一种新的生成式交互环境模型，能通过无监督学习，用未标注的互联网视频数据训练而成。Genie具有11B参数，能将文本、合成图像、照片甚至手绘草图转换为可交互的虚拟世界。这一模型打破了传统世界模型需要特定领域数据和动作标签的局限，通过学习潜动作空间，实现了对生成环境的逐帧控制。研究表明，Genie不仅能够创造多样的互动体验，还能够训练未来的通用智能体，通过对未见过的视频进行模仿学习，预示着人工智能领域迈向开放式学习和创造无限数据的新时代。

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人