YATO，一个用于文本分析的开源 Python 库。特别是，YATO专注于序列标注和序列分类任务，包括广泛的基础 NLP 任务，

YATO，一个用于文本分析的开源Python库。特别是，YATO专注于序列标注和序列分类任务，包括广泛的基础NLP任务，例如词性标注、分块、NER、CCG超标注、情感分析和句子分类。YATO可以通过用户友好的配置和集成SOTA预训练的语言模型，例如BERT，来设计基于RNN和Transformer的特定模型。YATO是一个基于PyTorch的框架，可以灵活选择输入特征和输出结构。使用YATO设计神经序列模型完全可以通过配置文件进行配置，不需要任何代码工作。其之前的版本NCRF++已被ACL2018接受为演示论文。基于NCRF++的深度实验报告被COLING2018接受为最佳论文。与NCRF++相比，YATO的亮点在于对Pre-trainedLanguageModel和句子分类任务的支持。#机器学习#框架

在Telegram中查看

相关推荐

ChatGPT 在文本标注任务中的表现超过了众包工人

苏黎世大学的研究人员在预印本平台arXiv上发表论文，报告OpenAI的AI聊天机器人ChatGPT在文本标注任务中的表现超过了众包工人。大量的自然语言处理（NLP）应用需要高质量的标注数据，此类任务可根据复杂程度和规模交给亚马逊众包平台MTurk上的众包工人或专业的标注者去完成。研究人员使用了包含2,382则推文的样本，对比了ChatGPT和众包工人以及专业标注者的表现。结果显示，ChatGPT在五项任务中有四项超过了众包工人，在评估一致性（intercoderagreement）上超过了众包工人以及专业标注者。更重要的是ChatGPT的标注成本每条不到0.003美元，是众包工人二十分之一。研究显示大语言模型可显著提高文本分类的效率。()投稿：@ZaiHuabot频道：@TestFlightCN

方便易用的文本标注工具

方便易用的文本标注工具Potato是一种易于使用的基于Web的注释工具，被EMNLP2022演示轨道接受。Potato能快速模拟和部署各种文本注释任务。Potato在后端作为Web服务器工作，可在本地启动，然后注释器使用基于Web的前端来处理数据。这个工具的目标是让人能够自己或以小型团队的形式快速轻松地注释文本数据-从零到注释只需几行配置即可完成。Potato由单个配置文件驱动，该文件指定要使用的任务和数据类型。Potato不需要任何编码即可启动和运行。对于大多数任务，不需要额外的网页设计，Potato很容易定制，因此可以调整注释者看到的界面和元素。#工具

2023年值得关注的顶级Python库 | blog | #Python

2023年值得关注的顶级Python库#Python1.：一个简化大型语言模型(LLM)调用和嵌入调用的开源库，支持OpenAI格式，提供统一的输入输出格式，便于在不同模型间切换。2.：一个简化Python应用部署的工具，允许开发者创建自安装包，支持跨操作系统，并且具有自更新功能。3.：一个低代码Python库，专为数据科学家设计，用于构建交互式WebUI，无需掌握Web堆栈工具，支持机器学习产品的可视化。4.：专为AppleSilicon设计的机器学习数组框架，提供NumPy风格的API，支持自动微分、向量化和计算图优化。5.：一个全面的文本预处理工具包，能够处理多种格式的文档，如PDF、HTML和Word文档，提供清洗、格式化和信息提取功能。6.和：一个开源MLOps框架，用于创建可移植的生产就绪机器学习管道，以及AutoMLOps服务，用于生成、配置和部署集成CI/CD的MLOps管线。7.：OpenAI的Whisper模型的增强版本，提供更准确的时间戳和多说话人检测，以及更快的处理速度和更低的内存占用。8.：一个框架，允许开发者使用多个agent进行对话协作，以解决任务，类似于软件工程团队的协作。9.：一个用于指定结构和类型、验证和纠正大型语言模型输出的库，确保模型输出符合预期。10.：一个用于处理时间序列数据的库，支持多变量时间序列、事件日志和跨源事件流。这些库不仅展示了Python在AI领域的强大能力，也为开发者提供了更多样化的工具，以应对各种挑战。

Nomic Embed：最新的高性能全开源文本嵌入模型

：最新的高性能全开源文本嵌入模型Nomic发布了第一个完全开源的文本嵌入模型NomicEmbed，其文本长度可达8192，性能超过OpenAI的Ada和其他开源模型。NomicEmbed的模型权重、训练代码和用于训练的数据集都是完全开源的，可以进行全面审计。NomicEmbed可以通过NomicAtlas嵌入API进行商业部署，提供100万免费调用量，也可以通过NomicAtlas企业版进行可靠、合规的企业级部署。文本嵌入是现代NLP中一个关键组件，NomicEmbed通过多阶段的对比训练获得。首先预训练BERT，然后在大规模非监督数据上进行对比训练，最后在小规模标注数据上微调。NomicEmbed在多个基准测试中表现强劲，尤其是在长文本任务上优于Ada。它提供了一个高性能且可审计的开源文本嵌入方案。Nomic还发布了所有用于训练的数据，以实现完全的模型可审计性。希望社区可以基于NomicEmbed继续推进开源AI。

TextGen：实现了多种文本生成模型，包括：UDA、GPT2、Seq2Seq、BART、T5等模型，开箱即用

TextGen：实现了多种文本生成模型，包括：UDA、GPT2、Seq2Seq、BART、T5等模型，开箱即用：本项目参考Google的UDA(非核心词替换)算法和EDA算法，基于TF-IDF将句子中部分不重要词替换为同义词，随机词插入、删除、替换等方法，产生新的文本，实现了文本扩增：本项目基于百度翻译API实现了回译功能，先把中文句子翻译为英文，再把英文翻译为新的中文：本项目基于PyTorch实现了Seq2Seq、ConvSeq2Seq、BART模型的训练和预测，可以用于文本翻译、对话生成、摘要生成等文本生成任务：本项目基于PyTorch实现了T5和CopyT5模型训练和预测，可以用于文本翻译、对话生成、对联生成、文案撰写等文本生成任务：本项目基于PyTorch实现了GTP2模型训练和预测，可以用于文章生成、对联生成等文本生成任务SongNet：本项目基于PyTorch实现了SongNet模型训练和预测，可以用于规范格式的诗词、歌词等文本生成任务：本项目实现了TGLS无监督相似文本生成模型，是一种“先搜索后学习”的文本生成方法，通过反复迭代学习候选集，最终模型能生成类似候选集的高质量相似文本

《开源大模型食用指南》基于Linux环境快速部署开源大模型 | #指南

《》基于Linux环境快速部署开源大模型#指南本项目是一个围绕开源大模型、针对国内初学者、基于AutoDL平台的中国宝宝专属大模型教程，针对各类开源大模型提供包括环境配置、本地部署、高效微调等技能在内的全流程指导，简化开源大模型的部署、使用和应用流程，让更多的普通学生、研究者更好地使用开源大模型，帮助开源、自由的大模型更快融入到普通学习者的生活中。本项目的主要内容包括：基于AutoDL平台（可扩展，例如阿里云）的开源LLM环境配置指南，针对不同模型要求提供不同的详细环境配置步骤；针对国内外主流开源LLM的部署使用教程，包括LLaMA、ChatGLM、InternLM等；开源LLM的部署应用指导，包括命令行调用、在线Demo部署、LangChain框架集成等；开源LLM的全量微调、高效微调方法，包括分布式全量微调、LoRA、ptuning等。

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人