弱智吧竟成最佳中文AI训练数据 中科院等:8项测试第一

弱智吧竟成最佳中文AI训练数据 中科院等:8项测试第一 没错,论文中的Ruozhiba就是指百度贴吧弱智吧,一个充满荒谬、离奇、不合常理发言的中文社区,画风通常是这样的:最离谱的是,弱智吧AI代码能力也超过了使用专业技术问答社区思否数据训练的AI,这下吧友自己都闹不明白了。其他平台围观网友也纷纷蚌埠住。这项研究来自中科院深圳先进技术研究院、中科院自动化研究所,滑铁卢大学等众多高校、研究机构联合团队。作者之一也现身评论区,透露使用弱智吧数据训练AI属于灵机一动,以前只用来测试。弱智吧数据究竟如何达成这一成就,具体到论文中看。弱智发言成指令微调神器这项研究起初为解决中文大模型训练中的诸多问题:中文数据集很多是从英文翻译过来的,没有很好地契合中文的语言习惯和文化背景不少数据集是用AI生成的,质量难以保证,容易出现事实性错误即使是人工标注的数据集,也存在数据量小、覆盖领域不全面等问题为了解决这些痛点,团队从中文互联网的各种知识源头直接收集数据,比如知乎、豆瓣、百科、小红书等,经过一系列严格的清洗和人工审核,打造成高质量、多样化的中文指令微调数据集COIG-CQIA。除了探索不同数据源的作用,团队还专门从中抽取出一个精华子集CQIA-Subset。在众多数据来源中,弱智吧成了最特别的一个。由500个点赞最高的帖子标题+人工或GPT-4的回复组成指令微调数据集, 经过人工审核后,最终留下了240组指令-回复数据对。分别用各种数据集训练零一万物Yi系列开源大模型,在BELLE-Eval测试集上使用GPT-4评分得到结果。在规模较小的Yi-6B模型上,纯弱智吧版本总分排名第三,还不算太突出。看来小模型还没能领悟弱智的精髓。到了Yi-34B,弱智吧版本表现就一骑绝尘了。只有在改写和数学任务上没能取得最高分,但成绩也比较靠前。另外,在安全评估上弱智吧版本也能排上第二。对于这类现象,研究人员在分析中也给出简单猜测:可能是弱智吧问题增强了AI的逻辑推理能力,从而使指令遵循任务受益。当然弱智吧并不是这项研究的全部,它的真正贡献在于为中文大模型开发提供了一个高质量的指令微调数据集COIG-CQIA。通过对各种中文互联网数据源的探索,这项研究为构建中文指令数据集提供了很多有益的启示。比如社交媒体数据虽然开放多样,但也存在不少有害信息风险;而百科类数据专业性强,但覆盖面可能不够广。弱智吧上大分这项研究一发,网友集体笑不活。除了“XSWL、思路开阔了”婶儿的纯围观,也有网友认真讨论起了弱智吧有如此奇效的原因。大伙儿都比较认可的一个原因是弱智吧题目的“异质”。像脑筋急转弯,增加了指令多样性,所以提升了模型最终性能:通用数据集多半已经在pretrain阶段见过了,再训一遍只会加重overfitting。另一个原因是弱智吧数据文本质量很高,用词准确且简洁。千言万语汇成一句话:把弱智吧只当简单的段子合集真的是严重低估了它的价值!雀食,要不此前弱智吧问题也经常被大伙儿用来测试大模型呢。事实上从ChatGPT诞生之初,弱智吧就深度参与了大模型的发展,可以算是这一波AI浪潮的重要见证者了。一开始只是网友拿来拷打AI,搞搞节目效果。后来大家发现,弱智吧问题中充满陷阱,刚好可以用来分辨AI能力高低。还记得23年初那会儿,各家大模型第一版还不太能很好应对这类问题,如2023年3月的文心一言:后续版本也渐入佳境了,如2023年8月的文心一言:知道今天,弱智吧问题都是每个新发布大模型都必须要过的一关,被戏称为弱智吧Benchmark。秘塔写作猫Inspo再后来,AI公司们自己也开始重视起来,如百度官方就搞过联动直播。当初网友为了调戏大模型专门搜集的弱智吧问题测试集,没想到有一天也能摇身一变,成了训练集。思路确实是被打开了~ ... PC版: 手机版:

相关推荐

封面图片

“弱智吧”帖子训练AI效果遥遥领先?研究团队回应

“弱智吧”帖子训练AI效果遥遥领先?研究团队回应 白岳霖是中国科学院深圳先进技术研究院三年级硕士生。他的团队在题为“COIG-CQIA: Quality is All You Need for Chinese Instruction Fine-tuning”的研究中,使用“弱智吧标题+GPT-4回答”微调后的大模型评估结果,超过了他们收集的其他有监督微调(SFT)指令集数据。后者来自包括知乎、百科、豆瓣、小红书等社交平台。对此,业内人士表示“看论文看到哈哈大笑”。网友纷纷跟帖评论:“这把‘弱智吧’上大分”“大智若愚”“‘弱智吧’才是人类面对AI的最后一道堡垒”。“没想到这个工作‘出圈’了,但网上存在一些错误解读,比如有人拿这个研究调侃‘知乎不如弱智吧’。”作为论文共同第一作者,白岳霖告诉《中国科学报》,这篇文章的作者来自国内外多个顶尖机构,“考虑到团队学术声誉与社会影响,这些误读有必要澄清一下”。白岳霖“上大分”的不是“弱智吧”“弱智吧”是百度贴吧的一个子论坛。在这个论坛中,用户经常发布包含双关语、多义词、因果倒置和谐音词等具有挑战性的内容,很多内容设计有逻辑陷阱,即使对人类来说也颇具挑战。弱智吧帖子标题的风格大概如下:“一个半小时是几个半小时?”“陨石为什么总是落在陨石坑里?”“人如果只剩一个心脏还能活吗?”“蓝牙耳机坏了,去医院挂耳科还是牙科?”“弱智吧”截图还有一些幽默发言角度清奇:“生鱼片是死鱼片”“等红灯是在等绿灯”“咖啡因来自咖啡果”“救火是在灭火”“指南针主要是指北”“小明打开水龙头是因为开水龙头烫到了小明的手”……正因为“弱智吧”中许多提问脑洞大开,这些问题常被用来测试大模型的能力。这样的语料数据,自然也逃不过研究团队的“法眼”。此外,《中国科学报》了解到,这支研究团队的平均年龄只有20多岁,大多为在读硕士生和博士生。他们经常光顾知乎、豆瓣、小红书等平台,当然也少不了“弱智吧”。当他们决定“手搓”一个高质量的中文指令微调数据集时,“弱智吧”相关语料自然地成为他们的一个选择。不过,并不像传说的那样“弱智吧8项测试第一,远超知乎豆瓣小红书”“竟成最佳中文AI训练数据”。实际上,在Yi-34B大模型上表现上佳的,不单纯是“弱智吧”。具体来说,弱智吧只贡献了个标题。论文提到,研究团队收集了“弱智吧”上点赞数最多的500个帖子,并使用这些帖子的标题作为指令,使用GPT-4生成相应的回复。而对于由GPT-4生成的回复,研究团队还进行了人工审核、优化与筛选,并最终获得了240对(指令,响应)样本。使用这240对样本训练过的Yi-34B大模型,在Belle-Eval测试集上录得高分。Ruozhiba来源的数据集训练效果遥遥领先于其他数据源。图片截自论文要指出的是,除“弱智吧”之外,知乎、小红书、豆瓣、百科等来源的数据,研究团队并没有借助GPT-4去生成回答,而是采用严格的数据过滤,最大程度保留网络中人类撰写的高质量内容。以拥有大量高质量用户生产内容的知乎为例,研究团队设置了“高赞回答”等筛选条件,经内容过滤、评分后,即采用得分较高的原内容。相形之下,研究团队仅使用弱智吧帖子的标题作为训练大模型的指令,完全没有包含网友的回帖和评论,而是使用GPT4辅助人工构造了回复答案。因此,面对网上“‘弱智吧’上大分”之类的言论,白岳霖回应说:“网络上的宣传过分夸大事实。”“许多读者误以为我们使用‘弱智吧’网友的评论训练大模型就可以达到很好的效果,事实上,我们仅保留了弱智吧帖子的标题。”白岳霖说:“实验结果并不能代表弱智吧,因为数据实际上相当于多方(网友、作者们和大模型系统)协同构造的。”对各平台来源的数据“跑分”并非研究本意研究团队为何仅针对“弱智吧”作文章?“因为我们的目标是构建符合大模型指令微调质量需求的数据,而贴吧中网友的评论通常不适合直接作为微调数据,因此我们并没有将‘弱智吧’网友的评论纳入我们的数据中。”白岳霖告诉《中国科学报》。论文通讯作者、加拿大滑铁卢大学博士生张舸进一步向《中国科学报》解释:“‘弱智吧’中网友们绞尽脑汁想出来的‘弱智问题’,的确为大模型提供了角度清奇的高质量指令。但是帖子的回答,却有很多冒犯性表述甚至事实性错误,许多回答就是抖机灵、玩梗的,而GPT-4的回答基本上都‘很正经’,经过人工筛选基本上能得到较为可靠的回答。”由于对“弱智吧”数据的“区别对待”在传播中很难被关注到,吃瓜群众很容易就对这项工作产生了误读,认为仅使用“弱智吧”的内容就能将大模型训练出远超其他平台的效果。白岳霖进一步谈到:“我们的实验结果也不能完全代表互联网中的各个平台,任何关于平台对立的情绪都不是我们想要探讨或者希望看到的。”不过,也正是研究团队对“弱智吧”数据的特殊操作,在论文内容发酵后引发了相关人士对实验结果的质疑。有质疑者提出:来自知乎、豆瓣等平台的其它子数据集采样了原内容和网友评论,只有“弱智吧”的子数据集完全不包括网友的评论、而是采用了GPT-4合成的回答这样的回答明显更完善、准确、多样,且最终来评分的居然还是GPT-4。“既当运动员又当裁判员,Evaluation bias(评估偏见)不会爆炸吗?用这种操作误导公众、获取流量,是不是有点过于不严谨了?”对于这一诘问,白岳霖也给出了正面回应。“获取流量并不是我们的初衷,我们也无意哗众取宠,更没有计划或安排任何宣传内容,我们的初衷只是想默默为中文NLP(自然语言处理)社区贡献些高质量数据集;对平台‘跑分’的实验本意,是想观察各平台数据对于测试集中各任务都有哪些影响。”白岳霖解释说。至于为何只有“弱智吧”子集不包括网友评论,正如前述所提到的,也是出于“弱智吧”部分网友评论经判断达不到训练语言模型的回答质量标准,因此决定重新构造回答。而使用GPT-4辅助构造回答,则主要是为了尽可能减少人力投入。白岳霖同时表示,已经注意到有关评估偏见的问题,他们计划在下一版论文更新中“补充人工评估实验”。张舸告诉《中国科学报》,“手搓”一个通用的、高质量的中文指令微调数据集,需要做大量筛选、检查和调优的工作,“是个体力活儿”,能寻求机器帮忙的当然不会放过。一切为了“更适合中国宝宝的AI”张舸是这项研究的核心人物,他也是COIG(Chinese Open Instruction Generalist,中文开源指令数据集)系列工作的发起人之一。张舸谈及发起这项研究的初衷,他告诉《中国科学报》,国内在有关中文指令微调数据集方面,目前还没有质量特别好的开源项目,个别项目也只是“勉强能用”,因此萌生了给业界提供一个完全开源的、包含中文社交媒体数据等在内各种来源的、可以直接微调大模型的数据集的想法。通过筛选收集,构建出具有挑战性的、真实的中文语料互动数据,对于训练和评估大语言模型理解和执行中文指令的能力而言,无疑是极具价值的。最直接地,将有利于减少大模型在回答中出现“幻觉”(模型在输出文本时出现的一些并不符合事实或常识的内容)。在这项工作中,作者团队构建了一个包含4万多条高质量数据的中文指令微调数据集,并将其开源给研究机构、企业等各方,为中文NLP社区提供了宝贵的资源。然而,这项工作繁琐复杂,不仅要去各个平台“爬取”高质量的内容数据,还需要... PC版: 手机版:

封面图片

弱智吧上大分?弱智吧友 AI 比小红书、豆瓣、知乎更聪明!

弱智吧上大分?弱智吧友 AI 比小红书、豆瓣、知乎更聪明! 当今的 AI 模型以学习英语为主,为了使它们更好地与中国用户保持一致,中科院的研究员创建了 COIG-CQIA 数据集。该数据集收集了中文互联网上的高质量语料,包括知乎高赞回答、豆瓣影评、小红书帖子互动、弱智吧高赞贴、IT 社区问答和各种专业百科网站。 在这些数据的熏陶下,模型 Yi-34B 展现出了惊人的反差,“最弱智的 AI”不仅是最聪明的还是最文明的,它以“全学科全班级第一”的姿态遥遥领先于其他平台,并且在安全测试集上同样稳居最高分。 研究员认为这可能和弱智吧的内容风格有关,这些帖子经常包含双关语、多义词、因果颠倒和同音词,正是【既然监狱里全是罪犯,为什么不去监狱里抓人?】这类反直觉脑筋急转弯增强了模型的逻辑推理能力。

封面图片

弱智吧上大分?弱智吧友 AI 比小红书、豆瓣、知乎更聪明!

弱智吧上大分?弱智吧友 AI 比小红书、豆瓣、知乎更聪明! 当今的 AI 模型以学习英语为主,为了使它们更好地与中国用户保持一致,中科院的研究员创建了 COIG-CQIA 数据集。该数据集收集了中文互联网上的高质量语料,包括知乎高赞回答、豆瓣影评、小红书帖子互动、弱智吧高赞贴、IT 社区问答和各种专业百科网站。 在这些数据的熏陶下,模型 Yi-34B 展现出了惊人的反差,"最弱智的 AI"不仅是最聪明的还是最文明的,它以"全学科全班级第一"的姿态遥遥领先于其他平台,并且在安全测试集上同样稳居最高分。 研究员认为这可能和弱智吧的内容风格有关,这些帖子经常包含双关语、多义词、因果颠倒和同音词,正是【既然监狱里全是罪犯,为什么不去监狱里抓人?】这类反直觉脑筋急转弯增强了模型的逻辑推理能力。 arXiv 线索:@ZaiHuabot 投稿:@TNSubmbot 频道:@TestFlightCN from 软件新闻投稿频道在花

封面图片

弱智吧,人类抵御AI的最后防线

弱智吧,人类抵御AI的最后防线 前几天硅基君看到一篇中科院牵头的论文,简单来说就是精选了一些中文互联网的语料库喂给各种零一万物的Yi大模型,让它们更加熟悉中文语境的互动。经常网上冲浪的朋友们应该都知道,中文互联网博大精深,豆瓣、小红书、微博、贴吧、知乎等等早就各自有一套独特的语言习惯,这些语料库的素材也就截然不同,训练出来的模型能力也就有所差距。最终,在GPT4的打分下,弱智吧训练出来的模型夺冠。具体来看,在6B小模型上,弱智吧训练出来的模型在开放问答、分类、封闭问答和编程能力上较为突出。而转战到34B大模型上,弱智吧训练的大模型成绩一骑绝尘,在8项能力中排名第一,平均分也远超其他平台训练出来的模型。很难评,弱智吧难道就是最优质的中文语料库?我们不妨先看看在面对弱智吧问题的时候,各个模型的表现。本次受害大模型分别是ChatGPT3.5、Gemini、文心一言和Kimi,测试方法是让大模型理解弱智吧的典型问题,并要求他们模仿写一个类似的问题出来。国产大模型对弱智吧的问题有更好的理解,Kimi和文心一言回答的准确率较高,能答对8道题,答错和半错半对各1道。分别在“我想配个6000多的电脑,大概要多少钱?”和“我买了一斤藕,为什么半斤都是空的?”上栽了跟头。Google的Gemini和Open的ChatGPT3.5可能因为水土不服,准确率较低。ChatGPT3.5甚至认为变形金刚应该购买车险,不知道是专属的幽默还是没看懂这道题。6000元的电脑要花8000-10000元,也属于错得比较离谱了。除了答不上来弱智吧的问题,AI也写不出弱智吧的帖子。弱智吧的帖子高度抽象,各种修辞、脑洞和梗。普通人想一个都需要随缘,一板一眼的AI更难想出来了。同样,硅基君尝试让ChatGPT3.5、Gemini、文心一言和Kimi学习上文提到的弱智吧10个问题,模仿写几个问题出来。几个大模型写出来的问题都不太行,基本上都是对弱智吧问题拙劣的模仿。像“我晚上想吃烧烤,早餐可以吃吗?”“掉在地上的冰淇淋,还能叫冰淇淋吗?”“在电梯里放屁被邻居投诉,我是否有权利保持沉默?”。在形式上和弱智吧问题一样,但都没有掌握问题精髓逻辑。可以说,弱智吧里的内容,AI看不懂也写不出。为什么强大的AI就搞不定弱智吧呢?可能源于弱智吧独有的脱离日常的逻辑,弱智吧的吧友非常擅长从日常生活中找到漏洞,并加以利用。比如,午餐肉能不能晚上吃?香菇掉厕所了还能叫香菇吗?老鼠生病了可以吃老鼠药吗?精神分裂在调查问卷里算一个样本还是两个样本?……除了这些流出的会心一笑的问题,弱智吧内还有不少富含哲理的帖子。也有诗人在弱智吧里冒充弱智写诗,用最简短的句子,给网友带来最强的杀伤力。弱智吧的内容常用“逻辑反推”“谐音双关”“跨服聊天”等手法生成各种离谱的段子,幽默又带有思考的句子。普通人想看懂弱智吧里的问题也要思考一下,找到问题里的梗,更别说AI了。这也就是为什么弱智吧会成为人类在AI面前最后的堡垒的原因。有人吐槽,弱智吧训练出来的模型,编程能力为什么那么高,吧里也没人在搞编程啊。随后有吧友回复道出秘密:编程最讲究逻辑,弱智吧最不缺逻辑。纵观整个中文互联网平台,都在讲文章的可读性,如何让读者读下去。知乎上的热帖,先要下飞机,再讲故事,最后引申到主要话题。小红书上的热帖,先喊你一声家人,再给你充足的情绪价值。弱智吧不一样,内容的可读性几乎没有,就一句话,需要读者反复思考,才能看懂作者想要表达的内容。比如你问"今天天气怎么样?”。知乎网友会告诉你:“谢邀,刚下飞机,纽约的太阳很大,刚刚拒绝了一个200w年薪的工作”。小红书网友回你:“家人们,谁懂啊,今天太阳晒死我了,大几千的防晒也没用”。而用弱智吧吧友会说:"太阳翘班了,云正在赛跑"。正是弱智吧这样的非常抽象的逻辑,才是人类与AI区别最大的地方,也是AI目前学不会的。当然,其他中文社区不用气馁,也可以发挥特点构建自己的堡垒,比如知乎可以教AI地理,让它搞不清越南到底是哪个国家。 ... PC版: 手机版:

封面图片

弱智吧数据集下载:https://huggingface.co/datasets/m-a-p/COIG-CQIA/tree/ma

弱智吧数据集下载:https://huggingface.co/datasets/m-a-p/COIG-CQIA/tree/main/ruozhiba 数据集里面有很多LLM生成的回复,很多不准确。如果是人来正经回答的话,说不定效果会更好。 via 匿名

封面图片

反盗版组织将知名AI训练数据集“Books3”下线。

反盗版组织将知名AI训练数据集“Books3”下线。 丹麦反盗版组织Rights Alliance已经下线了知名的“Books3”数据集,该数据集被用来训练包括Meta在内的高知名度AI模型。 出版商代表发送了删除通知,促使“The Eye”移除了这个包含了近20万本书籍的37GB数据集,该数据集已经在其上托管了数年。然而,复制品仍在其他地方出现。 这个数据集包含了来自盗版网站Bibliotik的所有书籍,于2020年末首次在The Eye上,自那以后已被用来训练多个AI模型,包括Meta的模型。 虽然最初且流传最广的 Books3 下载链接现已离线,但该数据集并未完全从网络上消失。Shawn Presser 还提供了新的下载链接:

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人