用于处理大规模非结构化文本数据集的工具,提供清理和筛选功能,旨在筛选微调数据集、创建用于检索增强生成(RAG)的文档集合,甚至对

None

相关推荐

封面图片

代表性LLM文本数据集大列表,包括预训练语料库、微调指令数据集、偏好数据集、评估数据集和传统NLP数据集 | #数据集

封面图片

:用单个命令从转录文本和非结构化信息生成精美的文档

封面图片

大规模结构化网络文本提取工具,可大规模提取优质文本数据,由Hugging Face Space提供,支持自动化内容筛选和再利用。

大规模结构化网络文本提取工具,可大规模提取优质文本数据,由Hugging Face Space提供,支持自动化内容筛选和再利用。 FineWeb是一个大规模结构化网络文本的提取和过滤系统,利用Hugging Face的机器学习模型从网页中提取和过滤出高质量的文本内容,可以快速处理大量网页,并根据可配置的过滤规则提取出结构化的数据。用户可以指定主题、语言等参数,FineWeb会返回与这些规则匹配的文本内容。 FineWeb利用DistilBERT模型进行主题分类,利用ToxicBERT模型过滤掉低质量和有毒内容,用户可以微调这些模型来优化提取文本的质量。 FineWeb使得大规模高质量网络文本的获取成为可能,为自然语言处理任务提供了极为宝贵的数据来源,未来工作将提升模型性能,扩充支持语言,并考虑将其作为API服务对外开放。 | #工具

封面图片

:LLM检索增强生成(RAG)相关资源大列表,包括论文、资源和工具等

封面图片

:用于检索增强生成、语义搜索、语义文本相似性、释义挖掘等多种应用的Python库,通过微调提升特定任务性能,支持从头开始训练新模

封面图片

日本数据【巴西短信』活跃筛选

#日本数据 #巴西短信 活跃筛选

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人