|| #语料库这是一个由人工生成、人工注释的助手式对话语料库,包含了161,443条消息,分布在66,497个对话树中,涵盖了3

|| #语料库 这是一个由人工生成、人工注释的助手式对话语料库,包含了161,443条消息,分布在66,497个对话树中,涵盖了35种不同的语言,并附有461,292个质量评级。 该语料库是全球范围内超过13,500名志愿者参与的众包努力的成果。

相关推荐

封面图片

中文科幻小说语料库 | #电子书 #语料库

中文科幻小说语料库 | #电子书 #语料库 大约有4675本科幻小说,可作为中文科幻小说人工智能语料库使用 1,4675本科幻小说,前百度贴吧科幻吧吧主比尔布莱克整理的4675本科幻小说。| 2,乌拉科幻小说网,被科幻世界杂志社灭了之后,释放的压缩包。|

封面图片

《美国当代语料库COCA》 | 简介:美国当代语料库COCA这本书带给读者一个新鲜的视角,无论是在探索历史、社会还是文化方面,它

《美国当代语料库COCA》 | 简介:美国当代语料库COCA这本书带给读者一个新鲜的视角,无论是在探索历史、社会还是文化方面,它都能为你提供独特的深度和思考。每一页都充满了智慧和启发,是对知识渴望者的不二之选。 | 标签:#书籍 #美国当 #阅读 | 文件大小:NG | 链接:

封面图片

小鹏哥雅思写作高分语料库 | 电子书籍

小鹏哥雅思写作高分语料库 | 电子书籍 描述:《 小鹏哥雅思写作高分语料库 》是2019年5月清华大学出版社出版的图书,作者是薛鹏。本书是新东方官网雅思频道专栏作家薛鹏(Paul)的精华之作。本书从解题、立论、布局等角度揭开雅思写作谋篇布局的奥秘,从词汇升级、句法拓展、头脑风暴等角度提高考生的写作能力。 链接:https://www.aliyundrive.com/s/XUoxp3A7M28 大小:33.04MB 标签:#小鹏哥雅思写作高分语料库 #英语 #电子书籍 来自:雷锋 版权:版权反馈/DMCA 频道:@shareAliyun 群组:@aliyundriveShare 投稿:@aliyun_share_bot

封面图片

AI识别唇语:Meta 开源第一个视听语言翻译语料库 MuAViC

AI识别唇语:Meta 开源第一个视听语言翻译语料库 MuAViC MuAViC 源数据来自 TED 和 TEDx 超过8000名演讲者的视频,提供了9种语言的1200小时的音频-视觉语料,包括英语、阿拉伯语、德语、希腊语语、西班牙语、法语、意大利语、葡萄牙语和俄语。 MuAViC 支持多种任务,如自动语音识别、唇读、机器翻译和端到端的语音到文本翻译。Meta 的开源模型 AV-HuBERT 经过 MuAViC 训练后,在嘈杂环境中的表现远优于其它领先的翻译模型。

封面图片

字节跳动语音合成seed-tts评估工具:用于评估零样本语音生成模型的跨域客观测试集,通过英语和普通话公共语料库的样本来衡量模型

字节跳动语音合成seed-tts评估工具:用于评估零样本语音生成模型的跨域客观测试集,通过英语和普通话公共语料库的样本来衡量模型性能,包含英语和普通话的公共语料库样本,采用词错误率和说话人相似度作为客观评价指标 | #工具

封面图片

书生·万卷1.0为书生·万卷多模态语料库的首个开源版本,包含文本数据集、图文数据集、视频数据集三部分,数据总体超过2TB。

书生·万卷1.0为书生·万卷多模态语料库的首个开源版本,包含文本数据集、图文数据集、视频数据集三部分,数据总体超过2TB。 基于大模型数据联盟构建的语料库,上海AI实验室对其中部分数据进行了细粒度清洗、去重以及价值梳理,形成了书生·万卷1.0,具备多元融合、精细处理、价值梳理、数学高效等四大特征。 在多元方面,书生·万卷1.0包含文本、图文、视频等多模态数据,范围覆盖科技、融合、媒体、教育、法律等多个领域,在训练提升模型知识内涵、逻辑推理和泛化推理化能力方面具有显着效果。 在精细化处理方面,书生·万卷1.0经历了甄别语言、正文抽取、格式标准化、基于规则及模型的数据过滤与清洗、多维度重整、数据质量评估等精细化数据处理环节,从而能够更好接地装配后续的模型训练需求。 在价值洞察方面,研究人员在书生·万卷1.0的构建过程中,着眼于内容与中文主流价值观结合的洞察,通过算法与人工评估的方式,提升了语料的纯净度。 在高效建模方面,研究人员在书生·万卷1.0统一格式,并提供了详细的参数字段说明和工具指南,综合考虑了建模性和效率,可快速评估语言、多模态等大模型训练。 目前,书生·万卷1.0已被评估书生·多态、书生·浦语的训练。通过对高质量语料的“消化模型”,书生系列模型在语义理解、知识问答、视觉理解、视觉问答等各类生成式任务表现出了优异的性能。 | #语料库

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人