“弱智吧”不收弱智，成最佳中文AI训练语料！

“弱智吧”不收弱智，成最佳中文AI训练语料！4月4日，“弱智吧”突然在中文AI领域刷屏，中科院用各大社交平台的数据，作为中文AI语料数据进行训练，结果发现“弱智吧”居然是最棒的中文语料，在多项测试中取得最高分！目前LLM大型语言模型中，英文语料占到大多数，而中文数据集此前多半是先从英文翻译再进行训练，很多大模型的中文效果比英文差，为了调侃AI，许多人也常常拿弱智吧的问题去挑战AI。为了更好地满足中文大模型的需求，中科院联合多所大学利用中文数据集来训练中文大模型。首先，团队直接找到某乎、某瓣等社交网络平台，爬取数据并进行标注，打造了全新的中文指令微调数据集COIG-CQIA，再用这些数据集来训练零一万物开源大模型，并用GPT4在BELLE-Eval测试集上打分。在340亿参数版本的Yi-34B下，弱智吧的分数非常突出，可以说是一骑绝尘，在问答、分类、生成、总结、摘要和代码上均取得极高的分数，数学某乎分数最高76分，但弱智吧也取得了72.6分的高分，最终均分76.9分遥遥领先！弱智吧的出色成绩也引起了大量的讨论，对比其他专业的技术问答社区，弱智吧的数据集其实更加精炼有效，提高模型的逻辑推理能力，而且“弱智”的方向十分多元，文本质量极高，从而提高了模型性能。而COIG-CQIA，也成为目前相对来说相当高质量的中文指令微调数据集，收集了来自各种来源如社交媒体、百科知识、考试题库等大量高质量的中文指令，弱智吧的出色表现，出在高质量中文知识学习方面的潜力，也给我们带来更多深入的思（乐）考（子）。标签:#AI#中文预料#弱智吧频道:@GodlyNews1投稿:@GodlyNewsBot

在Telegram中查看

相关推荐

弱智吧上大分？弱智吧友 AI 比小红书、豆瓣、知乎更聪明！

弱智吧上大分？弱智吧友AI比小红书、豆瓣、知乎更聪明！当今的AI模型以学习英语为主，为了使它们更好地与中国用户保持一致，中科院的研究员创建了COIG-CQIA数据集。该数据集收集了中文互联网上的高质量语料，包括知乎高赞回答、豆瓣影评、小红书帖子互动、弱智吧高赞贴、IT社区问答和各种专业百科网站。在这些数据的熏陶下，模型Yi-34B展现出了惊人的反差，"最弱智的AI"不仅是最聪明的还是最文明的，它以"全学科全班级第一"的姿态遥遥领先于其他平台，并且在安全测试集上同样稳居最高分。研究员认为这可能和弱智吧的内容风格有关，这些帖子经常包含双关语、多义词、因果颠倒和同音词，正是【既然监狱里全是罪犯，为什么不去监狱里抓人？】这类反直觉脑筋急转弯增强了模型的逻辑推理能力。线索：@ZaiHuabot投稿：@TNSubmbot频道：@TestFlightCN

研究表明用AI产生的语料来训练AI将使其退化并最终崩溃

研究表明用AI产生的语料来训练AI将使其退化并最终崩溃现在，随着越来越多的人使用AI来制作和发布内容，一个明显的问题出现了：当AI生成的内容在互联网上激增并且AI模型开始用其进行训练，而不是使用主要人类生成的内容时，会发生什么？来自英国和加拿大的一组研究人员已经研究了这个问题，并且最近在开放获取期刊arXiv上发表了一篇关于他们工作的论文。他们的发现令当前的生成式AI技术及其未来令人担忧：“我们发现在训练中使用模型生成的内容会导致生成的模型出现不可逆转的缺陷。”研究人员专门研究了文本到文本和图像到图像AI生成模型的概率分布，得出结论：“从其他模型生成的数据中学习会导致模型崩溃——一个退化过程，随着时间的推移，模型会忘记真正的底层数据分布……这个过程是不可避免的，即使对于具有近乎理想的长期学习条件的情况也是如此。”“随着时间的推移，生成数据中的错误会复合并最终迫使从生成数据中学习的模型进一步错误地感知现实，”该论文的主要作者之一IliaShumailov在给VentureBeat的电子邮件中写道。“我们惊讶地观察到模型崩溃发生的速度有多快：模型可以迅速忘记他们最初从中学习的大部分原始数据。”换句话说：当AI训练模型接触到更多AI生成的数据时，它的性能会随着时间的推移而变差，在其生成的响应和内容中产生更多错误，并在其响应中产生更少的非错误多样性。——额外编辑：研究人员同样担忧，目前互联网上AI生成内容正在迅速增加，训练下一代ai的数据正在被迅速污染。

书生·万卷1.0为书生·万卷多模态语料库的首个开源版本，包含文本数据集、图文数据集、视频数据集三部分，数据总体超过2TB。

书生·万卷1.0为书生·万卷多模态语料库的首个开源版本，包含文本数据集、图文数据集、视频数据集三部分，数据总体超过2TB。基于大模型数据联盟构建的语料库，上海AI实验室对其中部分数据进行了细粒度清洗、去重以及价值梳理，形成了书生·万卷1.0，具备多元融合、精细处理、价值梳理、数学高效等四大特征。在多元方面，书生·万卷1.0包含文本、图文、视频等多模态数据，范围覆盖科技、融合、媒体、教育、法律等多个领域，在训练提升模型知识内涵、逻辑推理和泛化推理化能力方面具有显着效果。在精细化处理方面，书生·万卷1.0经历了甄别语言、正文抽取、格式标准化、基于规则及模型的数据过滤与清洗、多维度重整、数据质量评估等精细化数据处理环节，从而能够更好接地装配后续的模型训练需求。在价值洞察方面，研究人员在书生·万卷1.0的构建过程中，着眼于内容与中文主流价值观结合的洞察，通过算法与人工评估的方式，提升了语料的纯净度。在高效建模方面，研究人员在书生·万卷1.0统一格式，并提供了详细的参数字段说明和工具指南，综合考虑了建模性和效率，可快速评估语言、多模态等大模型训练。目前，书生·万卷1.0已被评估书生·多态、书生·浦语的训练。通过对高质量语料的“消化模型”，书生系列模型在语义理解、知识问答、视觉理解、视觉问答等各类生成式任务表现出了优异的性能。#语料库

AI产业的灰暗面：OpenAI、谷歌、Meta如何获取训练语料

AI产业的灰暗面：OpenAI、谷歌、Meta如何获取训练语料《纽约时报》在本周末刊发的调查报道中，揭露了OpenAI、Google、Meta等公司为了获取训练语料所采取的一些“走捷径”措施，同时也展现了整个行业迫在眉睫的困境。美国科技巨头各走“捷径”2021年末，正在训练GPT-4的OpenAI遇到了一个棘手的问题，公司已经耗尽了互联网上所有可靠的英文文本资源，而他们需要更多、更大规模的数据来训练更强大的模型。为了处理这个问题，OpenAI的Whisper语音识别工具诞生了——用来转录Google旗下视频平台Youtube的视频音频，生成大量的对话文本。报道称，包括OpenAI总裁布洛克曼在内的团队总共转录了超过一百万小时的Youtube视频。随后这些资料被输入到GPT-4系统中，并成为聊天机器人ChatGPT的基础。根据Google的政策，禁止用户将平台上的视频用于“独立”应用，同时禁止通过任何自动化手段（爬虫等）访问其视频。有趣的是，在OpenAI偷偷扒Youtube视频时，Google也在转录自家流媒体平台的内容训练大模型——同样冒着侵犯版权的风险。正因如此，虽然有Google员工知道OpenAI在这么干，也没有出手阻止。因为一旦Google对OpenAI提出抗议，也有可能“引火烧身”到自己身上。对于是否采用Youtube视频训练AI的询问，OpenAI方面回应称，他们使用了“多个来源”的数据。Google发言人MattBryant则表示，公司对OpenAI的行为一无所知，且禁止任何人“未经授权抓取或下载Youtube视频”。不过Bryant也表示，公司只会在有明确法律、技术依据时才会采取行动。Google自家的条款，则允许平台使用这些视频开发视频平台的新功能，但这样的措辞是否意味着Google能用这些资料开发商用AI，也存在不小的疑问。与此同时，Meta的内部会议纪要显示，工程师和产品经理讨论了购买美国大型出版商Simon&Schuster以获取长文本资料的计划，另外他们还讨论了从互联网上收集受版权保护的内容，并表示“与出版商、艺术家、音乐家和新闻行业谈判授权需要的时间太多了”。据悉，有Meta的高管表示，OpenAI似乎正在使用受版权保护的材料，所以公司也可以遵循这个“市场先例”。更显性的变化是，Google去年修改了服务条款。根据内部资料显示，推动隐私政策变化的动机之一，包括允许Google利用公开的Google文档、Google地图上的餐厅评论，以及更多在线资料开发AI产品。最终Google赶在美国国庆节（7月4日）放假前的7月1日发布了修改后的隐私条款，将“使用公开信息训练AI模型”首次纳入其中。Bryant回应称，公司不会在没有用户“明确许可”的情况下使用他们的Google文档来训练AI，这里指的是自愿参与的实验性功能体验计划。即便如此还是不够正因为这些操作，近些年来伴随着人们对AI能力的惊叹，越来越多的版权方也开始意识到自己的数据被偷偷拿走训练AI了。包括《纽约时报》、一些电影制作人和作家已经将这些科技公司告上法庭，美国著作权局也正在制定版权法在AI时代的适用指南。问题在于，即便一些作家、制片人将科技公司的行为称为“美国史上最大盗窃案”，科技公司用来发展下一代AI的数据依然还是不够。2020年初，约翰霍普金斯大学的理论物理学家（现Anthropic首席科学官）JaredKaplan发布了一篇论文，明确表示训练大语言模型用的数据越多，表现就会越好。自那以后，“规模就是一切”成为了人工智能行业的信条。2020年11月发布的GPT-3包含约3000亿个Token的训练数据。2022年，GoogleDeepMind对400个人工智能模型进行测试，其中表现最好的模型（之一），一个名为Chinchilla的模型用了1.4万亿个Token的数据。到2023年，中国科学家开发的Skywork大模型在训练中使用了3.2万亿个英文和中文Token，GooglePaLM2的训练数据量则达到3.6万亿个Token。研究机构Epoch直白地表示，现在科技公司使用数据的速度已经超过数据生产的速度，这些公司最快会在2026年就耗尽互联网上的高质量数据。面对这样的问题，奥尔特曼已经提出了一种解决方法：像OpenAI这样的公司，最终会转向使用AI生成的数据（也被称为合成数据）来训练AI。这样开发人员在创建愈发强大的技术同时，也会减少对受版权保护数据的依赖。目前OpenAI和一系列机构也正在研究使用两个不同的模型，能否共同生成更有用、更可靠的合成数据——一个系统产生数据，另一个系统对信息进行评判。当然，这种技术路径是否可行，目前仍存争议。前OpenAI研究员JeffClune认为，这些AI系统所需的数据就像是穿越丛林的路径，如果这些公司只是在合成数据上训练，AI可能会在丛林里迷失。...PC版：https://www.cnbeta.com.tw/articles/soft/1426528.htm手机版：https://m.cnbeta.com.tw/view/1426528.htm

GPT-4o的中文语料训练数据被赌博诈骗和色情内容污染

GPT-4o的中文语料训练数据被赌博诈骗和色情内容污染OpenAI发布GPT-4o后不久，一些中文用户开始注意到这个最新版本的聊天机器人似乎有些不对劲，它用来解析文本的词块充满了垃圾邮件和色情短语。人类以单词为单位进行阅读，而LLM则以词块(Token)为单位进行阅读，词块是句子中的不同单位，具有一致且重要的含义。模型编码的词块越多，“读取”句子的速度就越快，消耗的计算能力就越少，从而降低了响应的成本。多名研究过GPT-4o使用的新词块库的研究人员表示，中文里最长的词块几乎都是用于色情、赌博和诈骗的垃圾词。甚至更短的词块，例如三个字长的中文单词，也在很大程度上反映了这些主题。“问题很明显，用于训练[分词器]的语料库不干净。英文词块看起来不错，但中文词块就不行了，”普林斯顿大学的蔡天乐说。语言模型在收集训练数据时抓取垃圾邮件的情况并不罕见，但通常会在使用数据之前花费大量精力来清理数据。“他们可能没有对中文进行适当的数据清理，”他说。——（节选）

Stack Overflow 将对使用其数据训练 AI 收费

StackOverflow将对使用其数据训练AI收费在Reddit之后，编程问答社区StackOverflow也将对科技巨头们使用其数据训练AI收费。和Reddit类似，StackOverflow也有着高质量的问答语料库，它有2000万注册用户，5000万问题和答案。StackOverflow的内容所有权属于原作者，采用了CCBY-SA授权，也就是使用时要求署名。CEOPrashanthChandrasekar称，使用该平台数据集训练大语言模型的公司违反了该许可证，在将模型出售给客户时无法为每一个问题和答案归属，违反了CC许可证。无论是StackOverflow或Reddit都没有公布收费价格。也许Twitter的定价可以作为参考：每月4.2万美元。来源，来自：雷锋频道：@kejiqu群组：@kejiquchat投稿：@kejiqubot

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人