持续更新的中文指令微调数据集,支持双语微调和数据修正。

持续更新的中文指令微调数据集,支持双语微调和数据修正。本数据集包括中文和英文的混合数据集,方便双语微调,以及后续做持续的数据修正。原始的Alpaca英文数据集也存在不少的问题,个别的数学类的sample是错的,有少部分output字段需要修正,一些的标签没有对齐等。本数据集会对原始的数据集进行修改和修正。再此基础上,翻译出对应的中文版本,中文版基本是原始sample的翻译,但是对于一些比如押韵类、时态类的一些instruction,直接翻译导致韵脚丢失,时态不一致等。需要对应的进行人工改写。主要分为以下几个方面:修改原始英文数据集的一些问题翻译为中文数据集调整直译导致的一些samplecode等一些特殊的输出不进行翻译对齐一些特殊的标签或者拒绝生成等输出#数据集

相关推荐

封面图片

评估系统所积累的数据和流程,可以很自然地应用到 LLM 产品的微调和数据管理中。微调最关键的是数据质量,而评估系统可以通过筛选、

评估系统所积累的数据和流程,可以很自然地应用到LLM产品的微调和数据管理中。微调最关键的是数据质量,而评估系统可以通过筛选、清洗、合成等手段来生成高质量的微调数据。评估系统中记录的跟踪数据、断言规则、人工反馈等,都可以直接用于微调数据的管理。总的来说,评估基础设施和微调及数据合成所需的基础设施有很大重叠。调试LLM产品的调试也可以受益于评估系统。理想的评估系统应该能够支持快速定位错误,找到问题的根本原因。其中的关键是丰富的跟踪数据、可以标记错误的机制、高效的日志搜索和导航工具等。此外,系统的设计应当允许快速测试解决方案并验证有效性。总之,调试和评估所需的基础设施在很多方面是共通的。全文翻译:https://quail.ink/op7418/p/e4bda0e79a84e4babae5b7a5e699bae883bde4baa7e59381e99c80e8a681e8af84e4bcb0-e5a682e4bd95e8af84e4bcb0llme4baa7e59381

封面图片

傻瓜式大语言模型微调训练教程_哔哩哔哩_bilibili

发现一个讲的很细的大语言模型微调教程,详细介绍了整个流程,包括数据准备、参数设置、资源监控等关键步骤。基本没有技术能力也可以完成微调。想要了解LLM原理的可以按这个实践一下。时间轴:0:00概念概览3:02自定义数据的准备8:17微调操作演示(T4版本)16:52微调操作演示(A100版本)19:13在HuggingFace上的保存与使用方法文字版整理:如何使用自己的数据对大语言模型进行微调(fine-tuning):对大语言模型进行微调并不一定非常困难和昂贵。通过使用自己的数据集对预训练模型进行微调,可以让模型更好地适应特定的任务需求。微调过程能够在保留原模型语言理解能力的基础上,进一步提升其在特定领域或任务上的表现。使用HuggingFace模型库和Unslaw工具进行模型微调:HuggingFace提供了丰富的预训练语言模型资源,用户可以根据任务需求选择合适的模型作为基础进行微调。而Unslaw工具则提供了一套简单高效的微调流程,其优点包括出色的内存使用效率以及对扩展上下文窗口的支持。通过Unslaw,用户能够以较低的资源开销完成模型微调。在GoogleColab上使用免费/付费GPU资源进行微调:GoogleColab提供了免费和付费的GPU资源,用户可以根据任务的复杂程度选择使用T4或A100。对于大多数微调任务而言,免费的T4资源已经足够。但如果数据集较大或模型较为复杂,升级到A100可以获得更充裕的算力支持。Colab为用户提供了一个易于上手的模型微调环境。准备自定义的微调数据集:准备微调数据的过程并不复杂。用户可以直接使用纯文本文件作为数据来源,而无需进行额外的预处理。为了获得理想的微调效果,建议至少准备100-200个样本。在示例中,为了快速演示,仅使用了几个样本。通过一个简单的Python脚本,可以方便地将原始文本数据转换为微调所需的JSON格式。修改Colab笔记本中的参数设置:

封面图片

日本政府罕见外修正 GDP 数据,或使央行推迟加息

日本政府罕见外修正GDP数据,或使日本央行推迟加息日本政府表示,将对一季度GDP数据进行修订,以反映营建订单数据的修正情况,并于7月1日公布修订结果。一些分析师表示,日本政府罕见地对GDP数据进行计划外的修正,可能导致GDP被大幅下修,或会影响日本央行的经济增长预测和下一次加息的时机。第一生命经济研究所的高级执行经济学家YoshikiShinke预计,修订后的数据将显示日本第一季度经济环比年率为萎缩2.7%,远高于目前预计的萎缩1.8%。这或迫使日本央行在7月31日的货币政策会议上下调经济增长预期,并难以证明加息是合理之举。

封面图片

AWS公开数据集 亚马逊在其 Amazon Web Services 中提供了一些大型数据集可以免费下载,需要注册一个aws账户

亚马逊在其AmazonWebServices中提供了一些大型数据集可以免费下载,需要注册一个aws账户,新用户有免费访问的权限Google提供了一些#数据集作为其BigQuery工具的一部分。包括GitHub公共资料库的数据,HackerNews的所有故事和评论。Youtube标签视频数据集包括来自4800个可视化实体的800万个YouTube视频ID和相关标签。它具有数十亿帧的预计算的、最先进的视觉功能

封面图片

“弱智吧”不收弱智,成最佳中文AI训练语料!

“弱智吧”不收弱智,成最佳中文AI训练语料!4月4日,“弱智吧”突然在中文AI领域刷屏,中科院用各大社交平台的数据,作为中文AI语料数据进行训练,结果发现“弱智吧”居然是最棒的中文语料,在多项测试中取得最高分!目前LLM大型语言模型中,英文语料占到大多数,而中文数据集此前多半是先从英文翻译再进行训练,很多大模型的中文效果比英文差,为了调侃AI,许多人也常常拿弱智吧的问题去挑战AI。为了更好地满足中文大模型的需求,中科院联合多所大学利用中文数据集来训练中文大模型。首先,团队直接找到某乎、某瓣等社交网络平台,爬取数据并进行标注,打造了全新的中文指令微调数据集COIG-CQIA,再用这些数据集来训练零一万物开源大模型,并用GPT4在BELLE-Eval测试集上打分。在340亿参数版本的Yi-34B下,弱智吧的分数非常突出,可以说是一骑绝尘,在问答、分类、生成、总结、摘要和代码上均取得极高的分数,数学某乎分数最高76分,但弱智吧也取得了72.6分的高分,最终均分76.9分遥遥领先!弱智吧的出色成绩也引起了大量的讨论,对比其他专业的技术问答社区,弱智吧的数据集其实更加精炼有效,提高模型的逻辑推理能力,而且“弱智”的方向十分多元,文本质量极高,从而提高了模型性能。而COIG-CQIA,也成为目前相对来说相当高质量的中文指令微调数据集,收集了来自各种来源如社交媒体、百科知识、考试题库等大量高质量的中文指令,弱智吧的出色表现,出在高质量中文知识学习方面的潜力,也给我们带来更多深入的思(乐)考(子)。标签:#AI#中文预料#弱智吧频道:@GodlyNews1投稿:@GodlyNewsBot

封面图片

人工智能研究人员发现使用流行数据集的道德和法律风险

人工智能研究人员发现使用流行数据集的道德和法律风险尽管这些数据集可免费获取,但根据一项对广泛使用的数据集进行检查的最广泛的研究项目显示,这些数据集充斥着未经授权的数据。在一群机器学习工程师和法律专家的组织下,"数据出处倡议"(DataProvenanceInitiative)研究了用于教授人工智能模型擅长特定任务的专业数据,这一过程被称为"微调"。他们审核了HuggingFace、GitHub和PapersWithCode(2019年加入FacebookAI)等网站上的1800多个微调数据集,发现约70%的数据集没有说明应使用何种许可,或者被错误地标注了比其创建者意图更宽松的准则。能够回答问题和模仿人类说话的聊天机器人的出现,掀起了一场建立更大更好的生成式人工智能模型的竞赛。这也引发了有关版权和合理使用互联网文本的问题,而互联网文本是训练大型人工智能系统所需的海量数据的关键组成部分。但是,如果没有适当的授权,开发人员就会对潜在的版权限制、商业使用限制或数据集创建者的信用要求一无所知。该倡议报告的共同作者、研究实验室CohereforAI的负责人萨拉-胡克(SaraHooker)说:"即使人们想做正确的事,他们也做不到。"麻省理工学院媒体实验室研究大型语言模型的博士生ShayneLongpre领导了这次审计,他说,托管网站允许用户在上传数据集时识别许可证,不应该因为错误或遗漏而受到指责。朗普雷说,缺乏适当的文档是一个源于现代机器学习实践的全社会问题。数据档案经常被多次合并、重新打包和重新授权。他说,试图跟上新版本发布步伐的研究人员可能会跳过记录数据来源等步骤,或者故意模糊信息,以此作为"数据洗钱"的一种形式。通过互动网站,用户可以探索审计中分析的数据集内容,其中一些数据集已被下载数十万次。HuggingFace的机器学习和社会团队负责人亚辛-杰尼特(YacineJernite)说,HuggingFace发现,数据集在开放、持续使用和共享的情况下,会有更好的文档记录。这家开源公司已将改进文档的工作列为优先事项,例如自动建议元数据。杰尼特说,即使注释不完善,公开可访问的数据集也是提高该领域透明度的有意义的第一步。一些最常用的微调数据集最初是由OpenAI和Google等公司创建的数据集。越来越多的数据集是利用OpenAI模型创建的机器数据集。包括OpenAI在内的领先人工智能实验室禁止使用其工具的输出结果开发竞争性人工智能模型,但允许某些非商业用途。人工智能公司对用于训练和完善流行人工智能模型的数据越来越保密。这项新研究的目标是让工程师、政策制定者和律师了解助长人工智能淘金热的不可见处的数据生态系统。这项倡议的提出正值硅谷与数据所有者之间的紧张关系濒临临界点之际。各大人工智能公司正面临着来自图书作者、艺术家和编码员的大量版权诉讼。与此同时,出版商和社交媒体论坛在闭门谈判中威胁要扣留数据。该倡议的探索工具指出,审计并不构成法律建议。Longpre说,这些工具旨在帮助人们了解信息,而不是规定哪种许可是合适的,也不是倡导某种特定的政策或立场。作为分析的一部分,研究人员还跟踪了各数据集的模式,包括数据的收集年份和数据集创建者的地理位置。约70%的数据集创建者来自学术界,约1%的数据集创建者来自Meta等公司的行业实验室。最常见的数据来源之一是维基百科,其次是Reddit和Twitter(现在称为X)。《华盛顿邮报》对GoogleC4数据集的分析发现,在1500万个域名中,维基百科是排名第二的网站。据《邮报》上周报道,Reddit最近威胁说,如果领先的人工智能公司不付费使用其数据来训练模型,就会阻止Google和必应的搜索爬虫,从而面临搜索流量损失的风险。与英语国家和西欧国家相比,南半球国家的口语几乎没有代表性,数据出处小组的分析为常用数据集的局限性提供了新的见解。但该小组还发现,即使全球南部有语言代表,数据集"几乎总是来自北美或欧洲的创作者和网络来源",该小组的论文如是说。胡克说,她希望该项目的工具能够揭示未来研究的主要领域。她说:"数据集的创建通常是研究周期中最不光彩的部分,应该得到应有的归属,因为这需要大量的工作。我喜欢这篇论文,因为它脾气暴够躁,但也提出了解决方案。我们必须从某个地方开始"。...PC版:https://www.cnbeta.com.tw/articles/soft/1392459.htm手机版:https://m.cnbeta.com.tw/view/1392459.htm

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人