书生·万卷1.0为书生·万卷多模态语料库的首个开源版本，包含文本数据集、图文数据集、视频数据集三部分，数据总体超过2TB。

书生·万卷1.0为书生·万卷多模态语料库的首个开源版本，包含文本数据集、图文数据集、视频数据集三部分，数据总体超过2TB。基于大模型数据联盟构建的语料库，上海AI实验室对其中部分数据进行了细粒度清洗、去重以及价值梳理，形成了书生·万卷1.0，具备多元融合、精细处理、价值梳理、数学高效等四大特征。在多元方面，书生·万卷1.0包含文本、图文、视频等多模态数据，范围覆盖科技、融合、媒体、教育、法律等多个领域，在训练提升模型知识内涵、逻辑推理和泛化推理化能力方面具有显着效果。在精细化处理方面，书生·万卷1.0经历了甄别语言、正文抽取、格式标准化、基于规则及模型的数据过滤与清洗、多维度重整、数据质量评估等精细化数据处理环节，从而能够更好接地装配后续的模型训练需求。在价值洞察方面，研究人员在书生·万卷1.0的构建过程中，着眼于内容与中文主流价值观结合的洞察，通过算法与人工评估的方式，提升了语料的纯净度。在高效建模方面，研究人员在书生·万卷1.0统一格式，并提供了详细的参数字段说明和工具指南，综合考虑了建模性和效率，可快速评估语言、多模态等大模型训练。目前，书生·万卷1.0已被评估书生·多态、书生·浦语的训练。通过对高质量语料的“消化模型”，书生系列模型在语义理解、知识问答、视觉理解、视觉问答等各类生成式任务表现出了优异的性能。 | #语料库

在Telegram中查看

相关推荐

《美国当代语料库COCA 》

《美国当代语料库COCA 》简介：由杨百翰大学开发的英语语料库，涵盖1990年至今的口语、小说、报刊、学术等多领域文本，总量超十亿词。通过真实语境展示英语动态演变，支持语言学、教学及跨文化研究，为分析当代英语使用提供权威数据支持。亮点：全球最大免费英语语料库之一，定期更新并标注词性、语境，支持高级检索与对比分析，助力语言研究、教材开发及AI语言模型训练。标签：#英语研究 #语料库语言学 #多文体覆盖 #COCA #杨百翰大学链接：https://pan.quark.cn/s/91e23f5bd109

《万卷方法·合集1（套装15册）》

《万卷方法·合集1（套装15册）》简介：万卷方法·合集1（套装15册）是一本围绕其核心主题展开的深刻探索之作，书中详细讨论了与其主题相关的各类观点与现实应用，带给读者全新的思考视角。这本书为那些想深入了解相关领域的读者提供了充实的内容，值得一读。更多详情请访问相关链接。标签： #万卷方#万卷方法·合集1（套装15册）#书籍文件大小：NG 链接：https://pan.quark.cn/s/861301937a79

万卷书蠹文丛系列（全套9册）

万卷书蠹文丛系列（全套9册）简介：本资料《万卷书蠹文丛系列（全套9册）》涵盖万卷书蠹文丛系列（全套9册）的详细内容，帮助读者掌握关键要点。通过丰富的案例、理论解析和实践指南，让学习者能够更加透彻地理解相关知识。标签： #万卷#学习#成长#进步文件大小NG 链接：https://pan.quark.cn/s/1b24938c30a5

字节跳动语音合成seed-tts评估工具：用于评估零样本语音生成模型的跨域客观测试集，通过英语和普通话公共语料库的样本来衡量模型

字节跳动语音合成seed-tts评估工具：用于评估零样本语音生成模型的跨域客观测试集，通过英语和普通话公共语料库的样本来衡量模型性能，包含英语和普通话的公共语料库样本，采用词错误率和说话人相似度作为客观评价指标 | #工具

《万卷楼国学经典 (珍藏版+升级版) [套装38册] 》

《万卷楼国学经典 (珍藏版+升级版) [套装38册] 》简介：万卷楼国学经典 (珍藏版+升级版) [套装38册]是一本深入探讨其核心主题的著作，作者通过大量案例分析与深入研究，提供了对相关问题的独特见解。书中详细介绍了该领域中的关键点，帮助读者更好地理解和掌握相关知识，适合各类读者阅读。更多详情请访问相关链接。标签： #万卷#万卷楼国学经典 (珍藏版+升级版) [套装38册]#书籍文件大小：NG 链接：https://pan.quark.cn/s/b8b9f25b29f5

《万卷楼国学经典（珍藏版）[套装全30册]》

《万卷楼国学经典（珍藏版）[套装全30册]》简介：本书提供了关于万卷楼国学经典（珍藏版）[套装全30册]的深度解析，涵盖其发展背景、核心概念以及实际应用。通过真实案例与科学研究，帮助读者理解其重要性，并掌握相关技能或知识点。适合对该主题感兴趣的读者，让你在短时间内提升认知，拓宽思维边界。标签：##万卷楼#知识#学习文件大小：NG 链接：https://pan.quark.cn/s/cf5703c22333

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人