是一个用于大规模处理、过滤和删除重复文本数据的库。它提供了一组预构建的常用处理块以及一个框架,可以轻松添加自定义功能。

是一个用于大规模处理、过滤和删除重复文本数据的库。它提供了一组预构建的常用处理块以及一个框架,可以轻松添加自定义功能。 DataTrove 处理管道与平台无关,可以在本地或 slurm 集群上开箱即用。其(相对)较低的内存使用率和多步骤设计使其非常适合大型工作负载,例如处理法学硕士的训练数据。 通过fsspec支持本地、远程和其他文件系统。

相关推荐

封面图片

好东西,一个超过一百万条、约4400万个 GPT-4/3.5 token的、全新合成动漫主题文本数据集。

好东西,一个超过一百万条、约4400万个 GPT-4/3.5 token的、全新合成动漫主题文本数据集。 创建方式为:获取网络爬取的文本数据(不包含维基百科内容),将完整的网页文本通过支持长文本窗口的大型语言模型(GPT-4-32k/GPT-3.5-16K,根据难度动态切换),并合成一个精炼版本。 数据集页面:

封面图片

大规模结构化网络文本提取工具,可大规模提取优质文本数据,由Hugging Face Space提供,支持自动化内容筛选和再利用。

大规模结构化网络文本提取工具,可大规模提取优质文本数据,由Hugging Face Space提供,支持自动化内容筛选和再利用。 FineWeb是一个大规模结构化网络文本的提取和过滤系统,利用Hugging Face的机器学习模型从网页中提取和过滤出高质量的文本内容,可以快速处理大量网页,并根据可配置的过滤规则提取出结构化的数据。用户可以指定主题、语言等参数,FineWeb会返回与这些规则匹配的文本内容。 FineWeb利用DistilBERT模型进行主题分类,利用ToxicBERT模型过滤掉低质量和有毒内容,用户可以微调这些模型来优化提取文本的质量。 FineWeb使得大规模高质量网络文本的获取成为可能,为自然语言处理任务提供了极为宝贵的数据来源,未来工作将提升模型性能,扩充支持语言,并考虑将其作为API服务对外开放。 | #工具

封面图片

方便易用的文本标注工具

方便易用的文本标注工具 Potato 是一种易于使用的基于 Web 的注释工具,被 EMNLP 2022 演示轨道接受。Potato能快速模拟和部署各种文本注释任务。Potato在后端作为Web服务器工作,可在本地启动,然后注释器使用基于Web的前端来处理数据。这个工具的目标是让人能够自己或以小型团队的形式快速轻松地注释文本数据 - 从零到注释只需几行配置即可完成。 Potato由单个配置文件驱动,该文件指定要使用的任务和数据类型。Potato不需要任何编码即可启动和运行。对于大多数任务,不需要额外的网页设计,Potato很容易定制,因此可以调整注释者看到的界面和元素。 | #工具

封面图片

是一个用于视频编辑的 Python 库:剪切、串联、标题插入、合成(也称为非线性编辑)、处理和自定义效果的创建。MoviePy

是一个用于视频编辑的 Python 库:剪切、串联、标题插入、视频合成(也称为非线性编辑)、视频处理和自定义效果的创建。MoviePy 可以读取和写入所有最常见的音频和视频格式,包括 GIF,并在 Windows/Mac/Linux 上运行,使用 Python 3.6+

封面图片

RT 归藏手把手教你训练你自己的AI歌手,最重要的一步来了。如何训练歌手的模型。这一步主要由两部分组成数据处理和模型训练。

RT 归藏 手把手教你训练你自己的AI歌手,最重要的一步来了。如何训练歌手的模型。这一步主要由两部分组成数据处理和模型训练。 这个林俊杰是我自己训练的4800步的模型,对比一下上一篇教程里的孙燕姿模型有两万多步,数据的质量也很重要。 感谢各位的支持,下面是具体步骤

封面图片

书生·万卷1.0为书生·万卷多模态语料库的首个开源版本,包含文本数据集、图文数据集、视频数据集三部分,数据总体超过2TB。

书生·万卷1.0为书生·万卷多模态语料库的首个开源版本,包含文本数据集、图文数据集、视频数据集三部分,数据总体超过2TB。 基于大模型数据联盟构建的语料库,上海AI实验室对其中部分数据进行了细粒度清洗、去重以及价值梳理,形成了书生·万卷1.0,具备多元融合、精细处理、价值梳理、数学高效等四大特征。 在多元方面,书生·万卷1.0包含文本、图文、视频等多模态数据,范围覆盖科技、融合、媒体、教育、法律等多个领域,在训练提升模型知识内涵、逻辑推理和泛化推理化能力方面具有显着效果。 在精细化处理方面,书生·万卷1.0经历了甄别语言、正文抽取、格式标准化、基于规则及模型的数据过滤与清洗、多维度重整、数据质量评估等精细化数据处理环节,从而能够更好接地装配后续的模型训练需求。 在价值洞察方面,研究人员在书生·万卷1.0的构建过程中,着眼于内容与中文主流价值观结合的洞察,通过算法与人工评估的方式,提升了语料的纯净度。 在高效建模方面,研究人员在书生·万卷1.0统一格式,并提供了详细的参数字段说明和工具指南,综合考虑了建模性和效率,可快速评估语言、多模态等大模型训练。 目前,书生·万卷1.0已被评估书生·多态、书生·浦语的训练。通过对高质量语料的“消化模型”,书生系列模型在语义理解、知识问答、视觉理解、视觉问答等各类生成式任务表现出了优异的性能。 | #语料库

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人