用于处理大规模非结构化文本数据集的工具,提供清理和筛选功能,旨在筛选微调数据集、创建用于检索增强生成(RAG)的文档集合,甚至对

None

相关推荐

封面图片

:用于实验、评估和部署基于检索增强生成 (RAG) 的系统的工具包,支持各种大语言模型 (LLM),旨在减少 LLM 幻觉风险并

封面图片

:LLM检索增强生成(RAG)相关资源大列表,包括论文、资源和工具等

封面图片

大规模结构化网络文本提取工具,可大规模提取优质文本数据,由Hugging Face Space提供,支持自动化内容筛选和再利用。

大规模结构化网络文本提取工具,可大规模提取优质文本数据,由Hugging Face Space提供,支持自动化内容筛选和再利用。 FineWeb是一个大规模结构化网络文本的提取和过滤系统,利用Hugging Face的机器学习模型从网页中提取和过滤出高质量的文本内容,可以快速处理大量网页,并根据可配置的过滤规则提取出结构化的数据。用户可以指定主题、语言等参数,FineWeb会返回与这些规则匹配的文本内容。 FineWeb利用DistilBERT模型进行主题分类,利用ToxicBERT模型过滤掉低质量和有毒内容,用户可以微调这些模型来优化提取文本的质量。 FineWeb使得大规模高质量网络文本的获取成为可能,为自然语言处理任务提供了极为宝贵的数据来源,未来工作将提升模型性能,扩充支持语言,并考虑将其作为API服务对外开放。 | #工具

封面图片

日本数据【巴西短信』活跃筛选

#日本数据 #巴西短信 活跃筛选

封面图片

代表性LLM文本数据集大列表,包括预训练语料库、微调指令数据集、偏好数据集、评估数据集和传统NLP数据集 | #数据集

封面图片

一种为机器学习而生的数据结构,非结构化多模态数据的数据结构

一种为机器学习而生的数据结构,非结构化多模态数据的数据结构 DocArray是一个库,用于存储传输中的嵌套、非结构化、多模态数据,包括文本、图像、音频、视频、3D 网格等。它允许深度学习工程师使用Pythonic API有效地处理,嵌入,搜索,推荐,存储和传输多模态数据 跨/多模式世界之门:用于表示复杂/混合/嵌套文本、图像、视频、音频、3D 网格数据的超表达数据结构。、、、等基础数据结构。 数据科学强国:通过 CPU/GPU 上的 Torch/TensorFlow/ONNX/PaddlePaddle 大大加快数据科学家在嵌入、k-NN 匹配、查询、可视化和评估方面的工作。 传输中的数据:针对网络通信进行了优化,随时可以使用 Protobuf、字节、base64、JSON、CSV、DataFrame 中的快速压缩序列化。非常适合流式传输和内存不足的数据。 一站式K-NN:主流向量数据库的统一且一致的API,允许最近邻搜索,包括Elasticsearch、Redis、ANNLite、Qdrant、Weaviate。 对于现代应用程序:GraphQL 支持使您的服务器在请求和响应方面具有通用性;内置数据验证和 JSON Schema (OpenAPI) 帮助您构建可靠的 Web 服务。 Pythonic:设计得像 Python 列表一样简单。如果你知道如何使用 Python,你就会知道如何使用 DocArray。直观的习惯用法和类型注释简化了您编写的代码。 与IDE集成:Jupyter notebook 和 Google Colab 上的漂亮打印和可视化;PyCharm 和 VS Code 中的全面自动完成和类型提示。 || #机器学习

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人