DomainWordsDict 一个专业 #词典 知识库

一个专业#词典知识库作者是刘焕勇,现任360人工智能研究院算法专家,前中科院软件所工程师,主要研究方向为知识图谱、事件图谱在实际业务中的落地应用。项目涵盖68个领域、共计916万词的专业词典知识库,可用于文本分类、知识增强、领域词汇库扩充等自然语言处理应用。在利用学习模型进行自然语言处理任务时候,领域词汇可以作为一项重要的领域特征加入到模型当中,可以提升领域性模型的性能项目由来1、领域性是自然语言处理中十分重要的一类问题,不同的领域之间在文本形式、用词、表达上都存在差异。而领域词汇作为一个领域的表示是用来区分领域的常规手段,例如,在没有标注语料进行有监督的领域文本分类中,利用领域关键词进行匹配、计数、排序的方式即可以完成这一任务。2、当前,纵观中文开放语言资源,并未有出现较大规模的领域性资源,如领域的wordembedding词向量、领域的关键词库。而这一资源在传统方法进行文本处理具有较大价值。为了填补这一空白以及对领域性词库进行基础语言资源建设,本项目被提出

相关推荐

封面图片

离线中英文词典数据库 | ECDICT | #数据库 #词典

离线中英文词典数据库#数据库#词典这是一份英文->中文字典的双解词典数据库,根据各类考试大纲和语料库词频收录数十万条各类单词的英文和中文释义,并按照各类考试大纲和词频进行标注。​​​“最初开发看书软件时需要给软件添加一个内嵌字典,在网上找到了一份别人提供的EDictAZ.txt的文本文件,里面有差不多两万英文单词的释义,于是开始用这个文件来提供字典查询,用着用着不够用了,又找到一份四六级到GRE包含释义的词汇表,但是缺少音标,于是写了个爬虫从各种资料里面把音标给爬下来,外加自己补充了一些组成了一份三万基本词汇的数据库。其后数年根据各种资料和网友贡献词库增长到10万左右,又找到Linux下面的cdict-1.0-1.rpm这个开源字典数据(mdict的主词库也是根据cdict转换得到),并按照英国国家语料库的前16万单词进行校对,补全很多语料库里词频较高但是却没有收录的词条。”

封面图片

大家好,最近一两个月,我陆续收集和整理了一些资料,搭建了一个飞书知识库。这是一个免费对外开放的知识库,汇总了诸多 AIGC 相关

大家好,最近一两个月,我陆续收集和整理了一些资料,搭建了一个飞书知识库。这是一个免费对外开放的知识库,汇总了诸多AIGC相关的资料,包括以Midjourney为主的AI绘画领域,和以ChatGPT为主的大语言模型领域。地址:https://ka45vdsguac.feishu.cn/wiki/UqIhwFIBOiMg4rk8gkoc7kb8nRg?open_tab_from=wiki_home另外我还借助插件自己翻译了Midjourney的官方文档,里面详细介绍了MJ的全部功能和指令,相当全面。具体内容可以P2-P4,感兴趣的直接点击链接跳转即可~

封面图片

简明英汉必应版:全网收词量最多的离线词典,词频考纲标注(432万词条)内容包含:

简明英汉必应版:全网收词量最多的离线词典,词频考纲标注(432万词条)内容包含:MDX版本(及去音标版):支持GoldenDict/mdict/BlueDict欧陆Eudic版(及去音标版):欧陆词典(桌面,手机)Kindle版本MDXCSS美化版本:支持GoldenDict/mdict/BlueDictStarDict版本:支持StarDict,多看系统因作者能力有限,该词典追求的是快速查词和查得率,让你在最短的时间内掌握一个单词的基本含义。整合了市面上各类免费和开源资料,利用BNC/COCA语料库进行词频矫正,并使用NodeBox,WordNet等自然语言处理工具包对各类时态语态,派生词等进行补充和标注。再根据考试大纲和柯林斯星级还有牛津3000核心词进行标注,让你一眼就能看出这个单词的重要性。词典是在340万收词量的开源词典《简明英汉增强版》(支持GoldenDict,欧陆词典,BlueDict,mdict,edwin,Kindle等)的基础上,补充了更多短语、谚语、新词、俚语和专业术语,并对前20万基础词汇使用必应释义进行了校对并发布。词典制作使用的工具:开发语言用的Python,以及beautifulsoup4,lxml,requests等常用模块,自然语言处理用到了WordNet和NodeBox两个包。以及,作者自己写的开源的ECDICT项目(Python词典数据库及相关脚本)和其他包括自然语言处理,BNC/COCA的分析程序,十多个不同类型的爬虫,等大大小小几十个脚本程序。数据库使用SQLite,CSV等。#词典

封面图片

国家图书馆《山海经》知识库向公众开放,免费提供海量书影、数字化长卷

国家图书馆《山海经》知识库向公众开放,免费提供海量书影、数字化长卷国家图书馆发布了《山海经》知识库,对国家图书馆已收录的92种《山海经》古籍的内容实现了文本、图像等信息的多维多向关联,读者可通过知识库免费浏览《山海经》海量书影和数字化图轴长卷,进行文献检索和版本比对等。同时,用户还可以个性化标引地图、检索图像、涂色。报道称,《山海经》知识库一期于2021年启动,经过3年的深度加工和整理,现已上万条专名标引,面向公众开放。读者可登录国家图书馆官网或《山海经》知识库网址http://shj.nlc.cn/免费使用该知识库。来源,频道:@kejiqu群组:@kejiquchat

封面图片

AnythingLLM:一个可打造成企业内部知识库的私人专属 GPT。

:一个可打造成企业内部知识库的私人专属GPT。它不仅是一个高效、可定制的开源企业级文档聊天机器人解决方案,同时也是一个全能的应用。可以将任何文档、资源或内容转换为大语言模型(LLM)知识库,使得在对话过程中可引用到里面的内容。特点:支持多用户实例和权限管理;支持多种文档类型,如PDF、TXT、DOCX等等;提供简易的UI界面管理向量数据库中的文档;提供两种聊天模式:对话模式可以保留之前的问题和回答,而查询模式可基于你的文档进行简单的问答;聊天中内容可引用链接到原始文档的来源和文本;项目使用到的技术栈简单,可快速迭代开发;支持在本地运行,也支持100%云部署;提供“自带大语言模型”的模式,支持任何开源llama.cpp兼容模型、OpenAI、Claude等;具有高效节约成本的措施,不需要支付多次Embedding大量文档的费用,这点比其他类似解决方案节省90%成本;提供完整的开发者API,可方便自定义集成。

封面图片

WayToAGI:一个比较优秀的中文 AI 免费知识库

WayToAGI:一个比较优秀的中文AI免费知识库WayToAGI是一个AI导航网站,收录了各种AI工具,包括但不限于文字生成图像、图像消除背景、Logo生成、语音转文字、文字转语音、写作助手、文本摘要总结、文字生成视频、视频剪辑提取、PPT生成、思维导图生成、网站生成器等等一系列网站。更提供了AI新闻与知识库。标签:#网站#AI#导航#AI生成链接:https://www.appmiu.com/20419.html

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人