是一个用于大规模处理、过滤和删除重复文本数据的库。它提供了一组预构建的常用处理块以及一个框架,可以轻松添加自定义功能。

是一个用于大规模处理、过滤和删除重复文本数据的库。它提供了一组预构建的常用处理块以及一个框架,可以轻松添加自定义功能。 DataTrove 处理管道与平台无关,可以在本地或 slurm 集群上开箱即用。其(相对)较低的内存使用率和多步骤设计使其非常适合大型工作负载,例如处理法学硕士的训练数据。 通过fsspec支持本地、远程和其他文件系统。

相关推荐

封面图片

,一个神奇的开源 #框架 ,让流处理更简单。

,一个神奇的开源 #框架 ,让流处理更简单。 该框架规范了项目配置,鼓励函数式编程,定义了最佳的编程方式,提供了一系列开箱即用的 Connectors。 标准化了配置、开发、测试、部署、监控、运维的整个过程,提供了 Scala/Java 两套 API,最终目的是打造一个一站式大数据平台,流批一体,湖仓一体的解决方案。

封面图片

好东西,一个超过一百万条、约4400万个 GPT-4/3.5 token的、全新合成动漫主题文本数据集。

好东西,一个超过一百万条、约4400万个 GPT-4/3.5 token的、全新合成动漫主题文本数据集。 创建方式为:获取网络爬取的文本数据(不包含维基百科内容),将完整的网页文本通过支持长文本窗口的大型语言模型(GPT-4-32k/GPT-3.5-16K,根据难度动态切换),并合成一个精炼版本。 数据集页面:

封面图片

:一个用于构建多人游戏和其他实时应用程序的 #框架

:一个用于构建多人游戏和其他实时应用程序的 #框架 Hathora 具有以下开箱即用的功能: •内置网络 服务器状态自动同步到所有订阅的客户端 具有增量编码的优化二进制协议 易于使用的远程过程调用 (RPC) •具有类型安全数据模型和客户端代码生成的声明式 API 格式 •具有内置原型接口的开发服务器 •各种内置身份验证提供程序 •服务器状态的自动持久化 •水平可扩展架构

封面图片

大规模结构化网络文本提取工具,可大规模提取优质文本数据,由Hugging Face Space提供,支持自动化内容筛选和再利用。

大规模结构化网络文本提取工具,可大规模提取优质文本数据,由Hugging Face Space提供,支持自动化内容筛选和再利用。 FineWeb是一个大规模结构化网络文本的提取和过滤系统,利用Hugging Face的机器学习模型从网页中提取和过滤出高质量的文本内容,可以快速处理大量网页,并根据可配置的过滤规则提取出结构化的数据。用户可以指定主题、语言等参数,FineWeb会返回与这些规则匹配的文本内容。 FineWeb利用DistilBERT模型进行主题分类,利用ToxicBERT模型过滤掉低质量和有毒内容,用户可以微调这些模型来优化提取文本的质量。 FineWeb使得大规模高质量网络文本的获取成为可能,为自然语言处理任务提供了极为宝贵的数据来源,未来工作将提升模型性能,扩充支持语言,并考虑将其作为API服务对外开放。 | #工具

封面图片

最近一直好奇一个问题:用户反馈数据(点赞点踩三选一四选一)给模型做强化学习有没有用?用处多大?产品能否构建起数据飞轮形成壁垒?

最近一直好奇一个问题:用户反馈数据(点赞点踩三选一四选一)给模型做强化学习有没有用?用处多大?产品能否构建起数据飞轮形成壁垒? 目前问了几个从业者,收集到的回答有: 1. 很有用 2. 在娱乐化场景用处不大,因为用户的选择偏好很离散 3. alignment阶段让模型语言风格贴近用户喜好有些用处,但本质对于模型能力提升用处不大 欢迎各位大神评论

封面图片

方便易用的文本标注工具

方便易用的文本标注工具 Potato 是一种易于使用的基于 Web 的注释工具,被 EMNLP 2022 演示轨道接受。Potato能快速模拟和部署各种文本注释任务。Potato在后端作为Web服务器工作,可在本地启动,然后注释器使用基于Web的前端来处理数据。这个工具的目标是让人能够自己或以小型团队的形式快速轻松地注释文本数据 - 从零到注释只需几行配置即可完成。 Potato由单个配置文件驱动,该文件指定要使用的任务和数据类型。Potato不需要任何编码即可启动和运行。对于大多数任务,不需要额外的网页设计,Potato很容易定制,因此可以调整注释者看到的界面和元素。 | #工具

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人