《大词林》是一个自动构建的大规模开放域中文知识库,由哈尔滨工业大学社会计算与信息检索研究中心秦兵教授和刘铭副教授主持研制。

《》是一个自动构建的大规模开放域中文知识库,由哈尔滨工业大学社会计算与信息检索研究中心秦兵教授和刘铭副教授主持研制。本次开源的是《大词林》中75万核心实体和核心实体对应的1.8万细粒度概念词表,其中核心实体涵盖了包括常见的人名、地名、物品名等术语,概念词列表则包含了细粒度的实体概念信息。同时开源的还包括由实体和概念形成的上下位关系列表(300万)和实体对应的关系三元组列表(300万)。本批数据面向国内外大学、公益性科研机构以及个人研究者免费开放。上述开放资源无需付费使用,但不可以用于商业

相关推荐

封面图片

#GitHub#TTSChatTTS-对话式高可控的语音合成模型▎项目功能:文本转语音模型▎项目介绍:一款专门为对话场景设计的文

#GitHub#TTSChatTTS-对话式高可控的语音合成模型▎项目功能:文本转语音模型▎项目介绍:一款专门为对话场景设计的文本转语音模型,例如LLM助手对话任务,支持英文和中文两种语言。最大的模型使用了10万小时以上的中英文数据进行训练。在HuggingFace中开源的版本为4万小时训练且未SFT的版本。使用需知为了限制ChatTTS的使用,我们在4w小时模型的训练过程中添加了少量额外的高频噪音,并用mp3格式尽可能压低了音质,以防不法分子用于潜在的犯罪可能。同时我们在内部训练了检测模型,并计划在未来开放。▎项目亮点:⏺对话式TTS:ChatTTS针对对话式任务进行了优化,实现了自然流畅的语音合成,同时支持多说话人。⏺细粒度控制:该模型能够预测和控制细粒度的韵律特征,包括笑声、停顿和插入词等。⏺更好的韵律:ChatTTS在韵律方面超越大部分开源TTS模型。同时提供预训练模型,支持进一步研究。▎项目地址:点击打开

封面图片

这个被出版商恨之入骨的男人 建了一个白嫖党的乌托邦

这个被出版商恨之入骨的男人建了一个白嫖党的乌托邦这则公告指向了今年3月,互联网档案馆被判败诉的一场诉讼案,而现在,卡勒和他的团队决定抗争到底。可能大伙儿现在还有点儿云里雾里的,互联网档案馆是啥?又为啥被起诉了?别着急,在正式开始吃瓜之前,我先简单介绍介绍这个互联网档案馆。当年从麻省理工毕业后,卡勒一手创立起了Alexa和InternetArchive两个项目,前者转手卖给亚马逊,赚了2.5亿美元。而后者直到今天仍在卡勒的手里运营着,它就是互联网档案馆。从1996年开始,互联网档案馆就通过创建档案馆藏、保存实体档案、归档社交媒体等多种形式,将互联网上很多有价值的信息保存下来。你可以在馆里找到当年肯尼迪的发言、迈克杰克逊的舞台影像,甚至于1989年迪士尼的老电影。利用WaybackMachine( 网站时光机 ),还可以回到某个网站的特定历史时间节点,即使网站没了,照样能利用网站时光机 “ 回到过去 ” 。截至目前,互联网档案馆已经保存了超过 6500 亿个网页的历史记录、 700 多万本扫描电子书还有 1073 万个视频...大到某政客的发言,小到一张meme图,都有可能被收录在档案馆内。就像档案馆团队宣传海报上写的那样, “rescueyourshit” ( 当然不是真的捡你的屎 )。可能你今天在社交平台上留下的某些黑历史,说不定就被互联网档案馆的爬虫爬到了,然后在未来的某一天突然被翻出来。真就应验了那句话,死去的回忆突然攻击我。。。更重要的是,互联网档案馆所包含的这些数以千万计的图书、电影、音乐、网站还有软件等等,都是免费的。也因此,互联网档案馆在英语世界颇受欢迎,根据TheVerge的数据,互联网档案馆目前每天大约能借出去7万本电子书。到这儿估计大伙儿多多少少也能猜出来,互联网档案馆之所以被起诉,是因为动了某些人的 “ 蛋糕 ” 。事情的起因是这样的。OpenLibrary( 开放图书馆 )是互联网档案馆的一个在线图书馆项目,2020 年疫情期间,因为图书馆和学校都关了,很多人没法儿线下看书找资料,所以互联网档案馆临时启动了一个国家紧急图书馆计划。这个项目把差不多 140 万本实体书扫描出来,不限数量地租借给读者们。这一做法在我们看来自然是好事一桩,但在当时,却遭到了不少作家和出版商的反对。有四家出版商联合起来,把互联网档案馆告上了法庭,指控理由是互联网档案馆违反了《 版权法 》,还有六千名作家签了请愿书支持这场诉讼。一时间, “ 为众人抱薪 ” 的互联网档案馆突然就变成了侵犯版权的盗贼。问题的核心,在于一个名叫CDL( 受控数字借阅 )的理论。大概在2011年的时候,互联网档案馆便是基于这理论,模拟线下图书馆的模式向开放图书馆的注册用户提供扫描电子书。所谓 CDL ,你可以理解为以1:1的比例免费对外租借电子书,并且还需要对数量做好记录。就跟你去线下图书馆借书是一个道理,一本书对应一个人,谁借的、借的什么书、什么时候借的,都要记得清清楚楚。问题就出在这。国家紧急图书馆计划推翻了之前CDL建立起来的借阅秩序,计划启动后,互联网档案馆全面放开了书籍的借阅限制,让一本书可以很多人同时下载阅读。这样的行为,直接惹恼了出版商。本来出版商们对于CDL,都是睁一只眼闭一只眼的态度,这次无异于在雷点上蹦迪了。所以他们集中火力瞄准了国家紧急图书馆计划,并且射程范围还波及到了整个开放图书馆和CDL理论。其中,根据美国《 版权法 》中对电子书租借的规定,如果图书馆想要对外租借电子书,需要从出版商或者作者那拿到许可证。出版商现在就咬死了互联网档案馆并没有向他们支付许可费。但在互联网档案馆看来,他们是一家图书馆,通过捐赠、购买等渠道获得的实体书,扫描之后通过电子版借出去,应该不需要向版权商支付额外费用。他们的辩护,主要基于《 版权法 》中的 “ 合理使用原则 ” ,也就是指,在某些特定情况下,无需获得版权人的许可,也可以使用其作品。一来,互联网档案馆是非营利性组织,二来数字副本的确在某种程度上 “ 转换 ” 了原作,还提供了公益服务。但问题又来了,互联网档案馆的图书馆身份是否得到了官方的认证?再者,即便是图书馆,那就有权利将实体书扫描成副本并租借出去吗?虽然很多美国的高校图书馆和公共图书馆都在实行CDL模式,但说到底它也只是一个约定俗成的概念,并没有具体的法律支撑,在这场诉讼中,法官也对CDL的合法性提出了质疑。种种指控,都让互联网档案馆身处不利,今年3月,这场长达3年的诉讼还是以互联网档案馆败诉告一段落。最后法院认为,出版商在这件事儿上所受到的影响,要远大过互联网档案馆所创造的社会价值。事实上,这场法庭对峙,最终并不只是单纯指向出版商或者互联网档案馆任何一方的输赢,而是关乎数字图书馆在今后该以何种面貌继续生存下去的关键。所以这一来二去的,不提卡勒,反倒先给一些美国民众给整害怕了。国外一个叫做 “FightfortheFuture” ( 为未来而战 )的数字版权组织,就发起了一场 “ 图书馆之战 ” 。参与这场 “ 战斗 ” 的公众们也自发开展了各种形式的声援活动。他们换上各种 “DefendtheInternetArchive” 的头像、发表对互联网档案馆有利的帖子、每天在互联网档案馆里读一本书、捐款、填写请愿的表单。。。而互联网档案馆也选择继续上诉,在上诉推文下,还有不少支持的声音。而在差评君看来,互联网档案馆选择继续上诉,不仅仅是为自己的生存而战,或许也是为了知识的自由获取权。就像互联网档案馆宣称的那样, “ 对人类的所有知识开放 ” 。而且很显然,在数字时代,我们仍然需要一座巨大数字图书馆。...PC版:https://www.cnbeta.com.tw/articles/soft/1384875.htm手机版:https://m.cnbeta.com.tw/view/1384875.htm

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人