方便易用的文本标注工具

方便易用的文本标注工具Potato是一种易于使用的基于Web的注释工具,被EMNLP2022演示轨道接受。Potato能快速模拟和部署各种文本注释任务。Potato在后端作为Web服务器工作,可在本地启动,然后注释器使用基于Web的前端来处理数据。这个工具的目标是让人能够自己或以小型团队的形式快速轻松地注释文本数据-从零到注释只需几行配置即可完成。Potato由单个配置文件驱动,该文件指定要使用的任务和数据类型。Potato不需要任何编码即可启动和运行。对于大多数任务,不需要额外的网页设计,Potato很容易定制,因此可以调整注释者看到的界面和元素。#工具

相关推荐

封面图片

YATO,一个用于文本分析的开源 Python 库。特别是,YATO专注于序列标注和序列分类任务,包括广泛的基础 NLP 任务,

YATO,一个用于文本分析的开源Python库。特别是,YATO专注于序列标注和序列分类任务,包括广泛的基础NLP任务,例如词性标注、分块、NER、CCG超标注、情感分析和句子分类。YATO可以通过用户友好的配置和集成SOTA预训练的语言模型,例如BERT,来设计基于RNN和Transformer的特定模型。YATO是一个基于PyTorch的框架,可以灵活选择输入特征和输出结构。使用YATO设计神经序列模型完全可以通过配置文件进行配置,不需要任何代码工作。其之前的版本NCRF++已被ACL2018接受为演示论文。基于NCRF++的深度实验报告被COLING2018接受为最佳论文。与NCRF++相比,YATO的亮点在于对Pre-trainedLanguageModel和句子分类任务的支持。#机器学习#框架

封面图片

AI爬虫工具是一种使用人工智能算法自动从网站收集数据的工具。

AI爬虫工具是一种使用人工智能算法自动从网站收集数据的工具。可以从任何不需要身份验证或登录凭据的网站收集数据,而且抓取的数据量没有限制。只需输入URL和您要抓取的项目,剩下的就交给我们的AI抓取工具。我们的AI抓取工具使用先进的算法准确收集数据,因此您可以对结果充满信心。借助我们的AI抓取工具,您可以自动化数据收集过程并腾出时间专注于其他任务。我们的AI抓取工具可让您轻松自定义数据收集偏好以满足您的需求。PS:无法试用,不建议填账号信息去试用。Web:https://webscrapeai.com/

封面图片

大规模结构化网络文本提取工具,可大规模提取优质文本数据,由Hugging Face Space提供,支持自动化内容筛选和再利用。

大规模结构化网络文本提取工具,可大规模提取优质文本数据,由HuggingFaceSpace提供,支持自动化内容筛选和再利用。FineWeb是一个大规模结构化网络文本的提取和过滤系统,利用HuggingFace的机器学习模型从网页中提取和过滤出高质量的文本内容,可以快速处理大量网页,并根据可配置的过滤规则提取出结构化的数据。用户可以指定主题、语言等参数,FineWeb会返回与这些规则匹配的文本内容。FineWeb利用DistilBERT模型进行主题分类,利用ToxicBERT模型过滤掉低质量和有毒内容,用户可以微调这些模型来优化提取文本的质量。FineWeb使得大规模高质量网络文本的获取成为可能,为自然语言处理任务提供了极为宝贵的数据来源,未来工作将提升模型性能,扩充支持语言,并考虑将其作为API服务对外开放。#工具

封面图片

Onefetch 是一款由 Rust 编写的命令行 Git 信息工具,它将直接在终端中展示本地 Git 仓库的项目详情和代码统计

Onefetch是一款由Rust编写的命令行Git信息工具,它将直接在终端中展示本地Git仓库的项目详情和代码统计等内容。工具完全离线可用(不需要网络连接)。默认情况下,仓库信息显示在主要语言logo的旁边,但是你还可以进一步配置onefetch以使用图像(在支持的终端上)、文本输入或什么都不展示。它会自动从文本中检测开源许可证,并为用户提供有价值的信息,例如代码分发、pending、依赖数量(使用包管理器)、主要贡献者(按提交次数)、占用磁盘大小、创建日期、LOC(代码行数)等。Onefetch可以通过命令行标志进行配置,以准确显示想要的内容和方式:用户可以自定义ASCII/文本格式、禁用信息行、忽略文件和目录、以多种格式(Json、Yaml)输出,ETC。#工具

封面图片

ChatGPT 在文本标注任务中的表现超过了众包工人

苏黎世大学的研究人员在预印本平台arXiv上发表论文,报告OpenAI的AI聊天机器人ChatGPT在文本标注任务中的表现超过了众包工人。大量的自然语言处理(NLP)应用需要高质量的标注数据,此类任务可根据复杂程度和规模交给亚马逊众包平台MTurk上的众包工人或专业的标注者去完成。研究人员使用了包含2,382则推文的样本,对比了ChatGPT和众包工人以及专业标注者的表现。结果显示,ChatGPT在五项任务中有四项超过了众包工人,在评估一致性(intercoderagreement)上超过了众包工人以及专业标注者。更重要的是ChatGPT的标注成本每条不到0.003美元,是众包工人二十分之一。研究显示大语言模型可显著提高文本分类的效率。()投稿:@ZaiHuabot频道:@TestFlightCN

封面图片

新的绘图和文本工具

新的绘图和文本工具Telegram已经非常强大的媒体编辑器已经完全重新设计。绘图工具根据绘图速度动态改变宽度并自动平滑您的线条。有一个新的模糊工具可以编辑敏感数据(或photobombers)——以及5种高精度的颜色选择方式,包括吸管工具。向照片或视频添加文本时,您现在可以更改其大小、字体和背景。所有用户都可以为图像上的文本添加自定义动画表情符号,即使他们没有TelegramPremium订阅。要快速添加矩形、圆形、箭头、星形和聊天气泡等形状,请点击“+”按钮。您还可以按住表面以用颜色填充画布-或者擦除所有内容。在接下来的更新中,我们计划进一步完善媒体编辑器界面并提高其性能。关注频道:@Hao12News

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人