持续更新的中文指令微调数据集,支持双语微调和数据修正。

持续更新的中文指令微调数据集,支持双语微调和数据修正。 本数据集包括中文和英文的混合数据集,方便双语微调,以及后续做持续的数据修正。 原始的Alpaca英文数据集也存在不少的问题,个别的数学类的sample是错的,有少部分output字段需要修正,一些的标签没有对齐等。本数据集会对原始的数据集进行修改和修正。再此基础上,翻译出对应的中文版本,中文版基本是原始sample的翻译,但是对于一些比如押韵类、时态类的一些instruction,直接翻译导致韵脚丢失,时态不一致等。需要对应的进行人工改写。主要分为以下几个方面: 修改原始英文数据集的一些问题 翻译为中文数据集 调整直译导致的一些sample code等一些特殊的输出不进行翻译 对齐一些特殊的标签 或者拒绝生成等输出 | #数据集

相关推荐

封面图片

是一个开放获取的数据集合,旨在填补自然语言处理中的语言差距,包括一个由人工策划的涵盖65种语言的指令遵循数据集,以及一个跨越11

是一个开放获取的数据集合,旨在填补自然语言处理中的语言差距,包括一个由人工策划的涵盖65种语言的指令遵循数据集,以及一个跨越114种语言的多语言数据集,共包含5.13亿个实例。 该项目旨在为指令微调提供资源,并为未来的研究合作提供宝贵的框架。该数据集对于AI语言建模的突破至关重要,并强调了多样性和包容性数据集的重要性。

封面图片

DDIA是一本分布式系统、数据库、大数据处理的经典必读书籍。

DDIA是一本分布式系统、数据库、大数据处理的经典必读书籍。 本书在理解英文原文的基础上,结合作者的一些工作经验,进行一些相应扩展,并参考github上Vonng的中文翻译版,对每一章用中文重新组织,作为每次分享的文字稿,在此集结为一本开源小册 || #电子书

封面图片

弱智吧竟成最佳中文AI训练数据 中科院等:8项测试第一

弱智吧竟成最佳中文AI训练数据 中科院等:8项测试第一 没错,论文中的Ruozhiba就是指百度贴吧弱智吧,一个充满荒谬、离奇、不合常理发言的中文社区,画风通常是这样的:最离谱的是,弱智吧AI代码能力也超过了使用专业技术问答社区思否数据训练的AI,这下吧友自己都闹不明白了。其他平台围观网友也纷纷蚌埠住。这项研究来自中科院深圳先进技术研究院、中科院自动化研究所,滑铁卢大学等众多高校、研究机构联合团队。作者之一也现身评论区,透露使用弱智吧数据训练AI属于灵机一动,以前只用来测试。弱智吧数据究竟如何达成这一成就,具体到论文中看。弱智发言成指令微调神器这项研究起初为解决中文大模型训练中的诸多问题:中文数据集很多是从英文翻译过来的,没有很好地契合中文的语言习惯和文化背景不少数据集是用AI生成的,质量难以保证,容易出现事实性错误即使是人工标注的数据集,也存在数据量小、覆盖领域不全面等问题为了解决这些痛点,团队从中文互联网的各种知识源头直接收集数据,比如知乎、豆瓣、百科、小红书等,经过一系列严格的清洗和人工审核,打造成高质量、多样化的中文指令微调数据集COIG-CQIA。除了探索不同数据源的作用,团队还专门从中抽取出一个精华子集CQIA-Subset。在众多数据来源中,弱智吧成了最特别的一个。由500个点赞最高的帖子标题+人工或GPT-4的回复组成指令微调数据集, 经过人工审核后,最终留下了240组指令-回复数据对。分别用各种数据集训练零一万物Yi系列开源大模型,在BELLE-Eval测试集上使用GPT-4评分得到结果。在规模较小的Yi-6B模型上,纯弱智吧版本总分排名第三,还不算太突出。看来小模型还没能领悟弱智的精髓。到了Yi-34B,弱智吧版本表现就一骑绝尘了。只有在改写和数学任务上没能取得最高分,但成绩也比较靠前。另外,在安全评估上弱智吧版本也能排上第二。对于这类现象,研究人员在分析中也给出简单猜测:可能是弱智吧问题增强了AI的逻辑推理能力,从而使指令遵循任务受益。当然弱智吧并不是这项研究的全部,它的真正贡献在于为中文大模型开发提供了一个高质量的指令微调数据集COIG-CQIA。通过对各种中文互联网数据源的探索,这项研究为构建中文指令数据集提供了很多有益的启示。比如社交媒体数据虽然开放多样,但也存在不少有害信息风险;而百科类数据专业性强,但覆盖面可能不够广。弱智吧上大分这项研究一发,网友集体笑不活。除了“XSWL、思路开阔了”婶儿的纯围观,也有网友认真讨论起了弱智吧有如此奇效的原因。大伙儿都比较认可的一个原因是弱智吧题目的“异质”。像脑筋急转弯,增加了指令多样性,所以提升了模型最终性能:通用数据集多半已经在pretrain阶段见过了,再训一遍只会加重overfitting。另一个原因是弱智吧数据文本质量很高,用词准确且简洁。千言万语汇成一句话:把弱智吧只当简单的段子合集真的是严重低估了它的价值!雀食,要不此前弱智吧问题也经常被大伙儿用来测试大模型呢。事实上从ChatGPT诞生之初,弱智吧就深度参与了大模型的发展,可以算是这一波AI浪潮的重要见证者了。一开始只是网友拿来拷打AI,搞搞节目效果。后来大家发现,弱智吧问题中充满陷阱,刚好可以用来分辨AI能力高低。还记得23年初那会儿,各家大模型第一版还不太能很好应对这类问题,如2023年3月的文心一言:后续版本也渐入佳境了,如2023年8月的文心一言:知道今天,弱智吧问题都是每个新发布大模型都必须要过的一关,被戏称为弱智吧Benchmark。秘塔写作猫Inspo再后来,AI公司们自己也开始重视起来,如百度官方就搞过联动直播。当初网友为了调戏大模型专门搜集的弱智吧问题测试集,没想到有一天也能摇身一变,成了训练集。思路确实是被打开了~ ... PC版: 手机版:

封面图片

亚马逊在其 Amazon Web Services 中提供了一些大型数据集可以免费下载,需要注册一个aws账户,新用户有免费访问

亚马逊在其 Amazon Web Services 中提供了一些大型数据集可以免费下载,需要注册一个aws账户,新用户有免费访问的权限 Google提供了一些#数据集 作为其Big Query工具的一部分。包括 GitHub 公共资料库的数据,Hacker News 的所有故事和评论。 Youtube标签视频数据集包括来自4800个可视化实体的800万个YouTube视频ID和相关标签。它具有数十亿帧的预计算的、最先进的视觉功能

封面图片

终于发现了一个国内可用、中文友好的类 chatGPT 机器人了!

终于发现了一个国内可用、中文友好的类 chatGPT 机器人了! 这个工具叫作 inspo,是国内团队开发的,用中文的数据集训练的 chatbot。 目前的数据集是截止到 2023 年 2 月份,所以最近发生的一些事情它都知道。 我用来做了几次测试,感觉效果都挺不错的,和 chatGPT 差别不大。 以下是我自己的几个应用案例,分别是学习场景、营销场景、情感场景的一些基础对话,你可以从中看出它回答的质量。 :

封面图片

OpenAI把GPT-4原始版给了EPFL研究团队 不微调只靠提示词能走多远?

OpenAI把GPT-4原始版给了EPFL研究团队 不微调只靠提示词能走多远? 也就是不用监督微调、也不用RHLF或其他强化学习对齐方法,只靠提示词能走多远?预训练模型,究竟能不能一步登天,直接改造成聊天机器人或AI助手?如果可行,将大大降低类ChatGPT大模型的开发难度。免微调对齐靠谱吗?免微调对齐,让刚出炉的预训练模型不止会“文本补全”,只从提示词中学会和用户对话、跟随指令,一直是业界关注的研究方向。目前的SOTA方法URIAL来自艾伦研究所,使用系统提示词+少数风格示例就能达到不错的效果。但EPFL团队发现,URIAL仍无法完全弥补与指令微调模型的差距,尤其在多轮对话中的表现更差一些。实验中,在Llama系列、Mistral系列和一般人接触不到的GPT-4-Base都观察到这种现象。其中GPT-4-Base的API访问权限从OpenAI Researcher Access Program项目中申请到。EPFL团队从这里出发,尝试了各种办法来提升上下文学习的效果。首先他们增加示例的数量,但发现帮助不大,没有随着例子数目增加性能就提升的趋势。这一点跟图像分类、机器翻译等任务还不太一样。然后他们使用了贪心搜索算法,从一大堆示例中选择最佳的添加到上下文。这种方法可以进一步提高性能,但与指令微调模型的差距仍然存在,特别是在 AlpacaEval 2.0基准测试中。此外他们还发现,贪心搜索为某个特定模型找到的最佳示例,对于其他模型不能可靠地迁移。也就是说,不同的示例适合不同的模型。团队还进行了一系列消融实验,以更多地了解上下文学习的工作原理。他们发现,在MT-Bench这样的综合评测中,示例包含正确的“问题-答案对”至关重要。这与此前大模型在分类任务中,只要有大量示例,部分标签错了也无所谓的发现非常不同。所以最终得出的结论是:即使采用更多复杂的改进方法,完全缩小上下文学习和指令微调之间的差距也有挑战,即使对于非常长上下文的大模型也是如此。论文最后分析,大语言模型可能通过上下文学习只学会了如何模仿例子里的回答风格,但还没有真正理解执行指令的逻辑。指令跟随任务相对还是比较复杂和开放的,没那么容易掌握。想让AI助手更“听话”,暂时还是很难有捷径可走。 ... PC版: 手机版:

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人