书生·万卷1.0为书生·万卷多模态语料库的首个开源版本,包含文本数据集、图文数据集、视频数据集三部分,数据总体超过2TB。

书生·万卷1.0为书生·万卷多模态语料库的首个开源版本,包含文本数据集、图文数据集、视频数据集三部分,数据总体超过2TB。 基于大模型数据联盟构建的语料库,上海AI实验室对其中部分数据进行了细粒度清洗、去重以及价值梳理,形成了书生·万卷1.0,具备多元融合、精细处理、价值梳理、数学高效等四大特征。 在多元方面,书生·万卷1.0包含文本、图文、视频等多模态数据,范围覆盖科技、融合、媒体、教育、法律等多个领域,在训练提升模型知识内涵、逻辑推理和泛化推理化能力方面具有显着效果。 在精细化处理方面,书生·万卷1.0经历了甄别语言、正文抽取、格式标准化、基于规则及模型的数据过滤与清洗、多维度重整、数据质量评估等精细化数据处理环节,从而能够更好接地装配后续的模型训练需求。 在价值洞察方面,研究人员在书生·万卷1.0的构建过程中,着眼于内容与中文主流价值观结合的洞察,通过算法与人工评估的方式,提升了语料的纯净度。 在高效建模方面,研究人员在书生·万卷1.0统一格式,并提供了详细的参数字段说明和工具指南,综合考虑了建模性和效率,可快速评估语言、多模态等大模型训练。 目前,书生·万卷1.0已被评估书生·多态、书生·浦语的训练。通过对高质量语料的“消化模型”,书生系列模型在语义理解、知识问答、视觉理解、视觉问答等各类生成式任务表现出了优异的性能。 | #语料库

相关推荐

封面图片

《美国当代语料库COCA 》

《美国当代语料库COCA 》 简介:由杨百翰大学开发的英语语料库,涵盖1990年至今的口语、小说、报刊、学术等多领域文本,总量超十亿词。通过真实语境展示英语动态演变,支持语言学、教学及跨文化研究,为分析当代英语使用提供权威数据支持。 亮点:全球最大免费英语语料库之一,定期更新并标注词性、语境,支持高级检索与对比分析,助力语言研究、教材开发及AI语言模型训练。 标签:#英语研究 #语料库语言学 #多文体覆盖 #COCA #杨百翰大学 链接:

封面图片

字节跳动语音合成seed-tts评估工具:用于评估零样本语音生成模型的跨域客观测试集,通过英语和普通话公共语料库的样本来衡量模型

字节跳动语音合成seed-tts评估工具:用于评估零样本语音生成模型的跨域客观测试集,通过英语和普通话公共语料库的样本来衡量模型性能,包含英语和普通话的公共语料库样本,采用词错误率和说话人相似度作为客观评价指标 | #工具

封面图片

万卷书蠹文丛系列(全套9册)

万卷书蠹文丛系列(全套9册) 简介:本资料《万卷书蠹文丛系列(全套9册)》涵盖万卷书蠹文丛系列(全套9册)的详细内容,帮助读者掌握关键要点。通过丰富的案例、理论解析和实践指南,让学习者能够更加透彻地理解相关知识。 标签: #万卷#学习#成长#进步 文件大小NG 链接:

封面图片

用于评估大型语言模型(LLM) Agent在多步多模态任务中的工具使能力的基准数据集,包含超过 4000 个多步多模态任务,这些

用于评估大型语言模型(LLM) Agent在多步多模态任务中的工具使能力的基准数据集,包含超过 4000 个多步多模态任务,这些任务涉及 33 种工具,包括 13 种多模态模型、9 个公共 API 和 11 个图像处理模块 | #数据集

封面图片

《万卷书蠹文丛系列(全套9册) 》|简介:万卷书蠹文丛系列(全套9册)不仅是一部学习资料,更是一本实践指南,适合对该领域有深入探

《万卷书蠹文丛系列(全套9册) 》|简介:万卷书蠹文丛系列(全套9册)不仅是一部学习资料,更是一本实践指南,适合对该领域有深入探索需求的读者。通过本书课程,你将全面掌握万卷书蠹文丛系列(全套9册)的关键技能,了解其在实际工作中的应用和挑战,帮助你突破学习瓶颈。 |标签:#课程#万卷书蠹文丛系列(全套9册)#学习资料 |文件大小:NG |链接:

封面图片

《万卷方法·合集1(套装15册)》

《万卷方法·合集1(套装15册)》 简介:万卷方法·合集1(套装15册)是一门系统性的学习课程,涵盖相关领域的核心知识。通过详尽的讲解和案例分析,帮助学习者深入理解课程主题,提高实践应用能力,适合希望扩展知识储备、提升专业技能的学员。 标签: #知识#学习资源#技能提升 文件大小:NG|链接:

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人