简明英汉必应版:全网收词量最多的离线词典,词频考纲标注(432万词条)内容包含:

简明英汉必应版:全网收词量最多的离线词典,词频考纲标注(432万词条)内容包含:MDX版本(及去音标版):支持GoldenDict/mdict/BlueDict欧陆Eudic版(及去音标版):欧陆词典(桌面,手机)Kindle版本MDXCSS美化版本:支持GoldenDict/mdict/BlueDictStarDict版本:支持StarDict,多看系统因作者能力有限,该词典追求的是快速查词和查得率,让你在最短的时间内掌握一个单词的基本含义。整合了市面上各类免费和开源资料,利用BNC/COCA语料库进行词频矫正,并使用NodeBox,WordNet等自然语言处理工具包对各类时态语态,派生词等进行补充和标注。再根据考试大纲和柯林斯星级还有牛津3000核心词进行标注,让你一眼就能看出这个单词的重要性。词典是在340万收词量的开源词典《简明英汉增强版》(支持GoldenDict,欧陆词典,BlueDict,mdict,edwin,Kindle等)的基础上,补充了更多短语、谚语、新词、俚语和专业术语,并对前20万基础词汇使用必应释义进行了校对并发布。词典制作使用的工具:开发语言用的Python,以及beautifulsoup4,lxml,requests等常用模块,自然语言处理用到了WordNet和NodeBox两个包。以及,作者自己写的开源的ECDICT项目(Python词典数据库及相关脚本)和其他包括自然语言处理,BNC/COCA的分析程序,十多个不同类型的爬虫,等大大小小几十个脚本程序。数据库使用SQLite,CSV等。#词典

相关推荐

封面图片

离线中英文词典数据库 | ECDICT | #数据库 #词典

离线中英文词典数据库#数据库#词典这是一份英文->中文字典的双解词典数据库,根据各类考试大纲和语料库词频收录数十万条各类单词的英文和中文释义,并按照各类考试大纲和词频进行标注。​​​“最初开发看书软件时需要给软件添加一个内嵌字典,在网上找到了一份别人提供的EDictAZ.txt的文本文件,里面有差不多两万英文单词的释义,于是开始用这个文件来提供字典查询,用着用着不够用了,又找到一份四六级到GRE包含释义的词汇表,但是缺少音标,于是写了个爬虫从各种资料里面把音标给爬下来,外加自己补充了一些组成了一份三万基本词汇的数据库。其后数年根据各种资料和网友贡献词库增长到10万左右,又找到Linux下面的cdict-1.0-1.rpm这个开源字典数据(mdict的主词库也是根据cdict转换得到),并按照英国国家语料库的前16万单词进行校对,补全很多语料库里词频较高但是却没有收录的词条。”

封面图片

DomainWordsDict 一个专业 #词典 知识库

一个专业#词典知识库作者是刘焕勇,现任360人工智能研究院算法专家,前中科院软件所工程师,主要研究方向为知识图谱、事件图谱在实际业务中的落地应用。项目涵盖68个领域、共计916万词的专业词典知识库,可用于文本分类、知识增强、领域词汇库扩充等自然语言处理应用。在利用学习模型进行自然语言处理任务时候,领域词汇可以作为一项重要的领域特征加入到模型当中,可以提升领域性模型的性能项目由来1、领域性是自然语言处理中十分重要的一类问题,不同的领域之间在文本形式、用词、表达上都存在差异。而领域词汇作为一个领域的表示是用来区分领域的常规手段,例如,在没有标注语料进行有监督的领域文本分类中,利用领域关键词进行匹配、计数、排序的方式即可以完成这一任务。2、当前,纵观中文开放语言资源,并未有出现较大规模的领域性资源,如领域的wordembedding词向量、领域的关键词库。而这一资源在传统方法进行文本处理具有较大价值。为了填补这一空白以及对领域性词库进行基础语言资源建设,本项目被提出

封面图片

《现代汉语规范词典》完成新一轮修订:收录网红、群聊、脑洞等热词

《现代汉语规范词典》完成新一轮修订:收录网红、群聊、脑洞等热词近日,国家语言文字工作委员会重点项目《现代汉语规范词典》完成新一轮修订,推出第4版。据了解,新改版的《现代汉语规范词典》收录单字12000余个、词目72000余条、例证80000余条,基本反映了现代汉语词汇面貌。本次修订增补了近千条新词语,包括“共享经济”“互联网+”“移动支付”等反映时代发展的热词,还收入了一些贴近日常的网络用语,如“网红”“群聊”“群主”“脑补”“脑洞”等。同时,为贴近语文教学,此次修订特意增加了部编本语文教材中某些文言字词读音和用法的提示。如“阿房宫”的“房”,用提示加以说明“‘房’在‘阿房宫’中读páng”。考虑到语言生活的某些实际情况,对“六”字后也加了提示“‘六’字用于地名‘六安’(在安徽)、‘六合’(在江苏)等时,当地人读lù等。据了解,《现代汉语规范词典》编撰项目于1992年正式启动,这是一部旨在全面贯彻国家有关规范标准的词典,由著名语言文字学家吕叔湘倡导编写,李行健担任主编,吕叔湘、李荣、许嘉璐、周有光、曹先擢、柳斌、胡明扬等多位学者担任顾问。2004年2月,历时十余年第一版编纂完成,迄今已完成3次修订。此次第4版历时8年完成。PC版:https://www.cnbeta.com/articles/soft/1307565.htm手机版:https://m.cnbeta.com/view/1307565.htm

封面图片

朗文当代高级英语词典 第五版 双色pdf高清版本

资源名称:朗文当代高级英语词典第五版双色pdf高清版本描述:目前网络上流传的最好版本!收词全面:收录词条、短语和释义达230,000条,包含大量新词新义解读文化:涵盖各种文化词目,帮助读者学习英语国家文化例证地道:165,000条例证全部来自权威朗文语料库,原汁原味,自然真实释义简明:所有词条用2,000个基本单词解释,浅显易懂,避免循环查证详解难点:近700处“语法”专栏和“词语辨析”专栏,深入剖析语言疑点难点突出搭配:提供65,000项搭配信息,并设450余处“词语搭配”专栏,丰富表达,助力口语与写作注重语用:设置约400处“语体”专栏和“语用学”专页,详尽解析词汇使用语境,指导读者得体运用扩充词汇:提供18,000个同义词、反义词和相关词,方便联想记忆,有助积累词汇标注词频:显示口语和书面语中最常用的3,000词,便于读者优先掌握插图丰富:插图随处可见,形象展示词语之间的细微差别链接:https://www.aliyundrive.com/s/4FnKoM225q9

封面图片

“幻觉”被选为《剑桥词典》年度词汇

“幻觉”被选为《剑桥词典》年度词汇词典网站上的一篇文章称,之所以选择这个词,是因为它的新含义"直指人们谈论人工智能的核心原因"。生成式人工智能是一种"强大"但"远非完美"的工具,"我们仍在学习如何安全有效地与之互动--这意味着既要认识到它的潜在优势,也要认识到它目前的弱点"。词典今年增加了许多与人工智能相关的词条,包括大型语言模型(或LLM)、生成式人工智能(或GenAI)和GPT(生成式预训练转换器的缩写)。"人工智能的幻觉提醒我们,人类在使用这些工具时仍需具备批判性思维能力。"大型语言模型的可靠性取决于其算法所学习到的信息。可以说,人类的专业知识比以往任何时候都更加重要,因为只有这样,才能创造出权威的最新信息,供LLM训练使用。图为生成式AI在报道时事时出现"幻觉"的一个例子"人工智能"被柯林斯词典评为2023年最值得关注的词汇剑桥大学的人工智能伦理学家亨利-谢夫林(HenryShevlin)说,令人"震惊"的是,词典团队没有选择"glitch"或"bugs"这样的计算机专用词来描述法律硕士们所犯的错误,而是决定使用一个"生动的心理动词"。他说,这可能是因为"人们很容易将这些系统拟人化,把它们当作有自己思想的系统"。谢夫林还说,今年可能会成为人工智能幻觉"担忧的高点",因为人工智能公司正在努力通过吸取人类的反馈意见来遏制错误的发生频率,用户也在了解哪些任务可以信任人工智能,而且人工智能模型正变得越来越专业化。该词典提供了两个与人工智能相关的"幻觉"用法示例:"法学硕士因产生AI幻觉而臭名昭著--生成完全错误的答案,通常还辅以虚构的引文",以及"最新版本的聊天机器人有了很大改进,但仍会产生幻觉"。在剑桥做出这一决定之前,柯林斯词典将其年度词汇命名为"人工智能"。...PC版:https://www.cnbeta.com.tw/articles/soft/1397815.htm手机版:https://m.cnbeta.com.tw/view/1397815.htm

封面图片

抖音整治摆拍:即日起演绎内容需明确标注 违规可永久封号

抖音整治摆拍:即日起演绎内容需明确标注违规可永久封号其中提到,为维护良好的社区生态,落实“清朗·整治‘自媒体’无底线博流量”专项工作要求,切实打击“不择手段蹭炒社会热点”“自导自演式造假”等违规行为。抖音即日起实行热点内容核实机制,具体分为热点事件当事人核实和疑似演绎内容核实两项。在一些热点事件中,部分当事人、当事方选择在抖音平台公开发声。为确保当事人身份和发布内容真实性,防止摆拍造假、仿冒蹭热、拼凑剪接、谣言等传播,平台对“热点事件当事人”发声做出规范。包括点事件发生后,以热点事件当事人或当事人亲朋好友身份出现并发布内容的账号,平台发现后会进行核实等。除了真实热点事件外,演绎内容均需要标注。抖音强调,创作者通过剧情演绎方式创作、发布虚构内容时,需在显著位置或以显著形式明确标注相关视频系演绎,文案包括但不限于“虚构演绎,仅供娱乐”等。对于疑似演绎而未打标的内容,平台会下发提醒,提醒后仍未打标的内容,平台将视情况采取内容下架、账号处罚、强制标注等措施,直至用户提供可信证明材料。此外,未打标造成公众、媒体误解的账号,平台将视情节给予全面禁言30天至无限期封禁等处罚。公告全文如下:...PC版:https://www.cnbeta.com.tw/articles/soft/1432509.htm手机版:https://m.cnbeta.com.tw/view/1432509.htm

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人