书生·万卷1.0为书生·万卷多模态语料库的首个开源版本,包含文本数据集、图文数据集、视频数据集三部分,数据总体超过2TB。

书生·万卷1.0为书生·万卷多模态语料库的首个开源版本,包含文本数据集、图文数据集、视频数据集三部分,数据总体超过2TB。基于大模型数据联盟构建的语料库,上海AI实验室对其中部分数据进行了细粒度清洗、去重以及价值梳理,形成了书生·万卷1.0,具备多元融合、精细处理、价值梳理、数学高效等四大特征。在多元方面,书生·万卷1.0包含文本、图文、视频等多模态数据,范围覆盖科技、融合、媒体、教育、法律等多个领域,在训练提升模型知识内涵、逻辑推理和泛化推理化能力方面具有显着效果。在精细化处理方面,书生·万卷1.0经历了甄别语言、正文抽取、格式标准化、基于规则及模型的数据过滤与清洗、多维度重整、数据质量评估等精细化数据处理环节,从而能够更好接地装配后续的模型训练需求。在价值洞察方面,研究人员在书生·万卷1.0的构建过程中,着眼于内容与中文主流价值观结合的洞察,通过算法与人工评估的方式,提升了语料的纯净度。在高效建模方面,研究人员在书生·万卷1.0统一格式,并提供了详细的参数字段说明和工具指南,综合考虑了建模性和效率,可快速评估语言、多模态等大模型训练。目前,书生·万卷1.0已被评估书生·多态、书生·浦语的训练。通过对高质量语料的“消化模型”,书生系列模型在语义理解、知识问答、视觉理解、视觉问答等各类生成式任务表现出了优异的性能。#语料库

相关推荐

封面图片

AI识别唇语:Meta 开源第一个视听语言翻译语料库 MuAViC

AI识别唇语:Meta开源第一个视听语言翻译语料库MuAViCMuAViC源数据来自TED和TEDx超过8000名演讲者的视频,提供了9种语言的1200小时的音频-视觉语料,包括英语、阿拉伯语、德语、希腊语语、西班牙语、法语、意大利语、葡萄牙语和俄语。MuAViC支持多种任务,如自动语音识别、唇读、机器翻译和端到端的语音到文本翻译。Meta的开源模型AV-HuBERT经过MuAViC训练后,在嘈杂环境中的表现远优于其它领先的翻译模型。投稿:@ZaiHuabot频道:@TestFlightCN

封面图片

GPT-4o的中文语料训练数据被赌博诈骗和色情内容污染

GPT-4o的中文语料训练数据被赌博诈骗和色情内容污染OpenAI发布GPT-4o后不久,一些中文用户开始注意到这个最新版本的聊天机器人似乎有些不对劲,它用来解析文本的词块充满了垃圾邮件和色情短语。人类以单词为单位进行阅读,而LLM则以词块(Token)为单位进行阅读,词块是句子中的不同单位,具有一致且重要的含义。模型编码的词块越多,“读取”句子的速度就越快,消耗的计算能力就越少,从而降低了响应的成本。多名研究过GPT-4o使用的新词块库的研究人员表示,中文里最长的词块几乎都是用于色情、赌博和诈骗的垃圾词。甚至更短的词块,例如三个字长的中文单词,也在很大程度上反映了这些主题。“问题很明显,用于训练[分词器]的语料库不干净。英文词块看起来不错,但中文词块就不行了,”普林斯顿大学的蔡天乐说。语言模型在收集训练数据时抓取垃圾邮件的情况并不罕见,但通常会在使用数据之前花费大量精力来清理数据。“他们可能没有对中文进行适当的数据清理,”他说。——(节选)

封面图片

史料RAG:用向量数据库基于RAG(检索增强生成)方式搭建一个中国历史问答应用,这个应用接受用户的询问,从历史语料库中检索相关的

:用向量数据库基于RAG(检索增强生成)方式搭建一个中国历史问答应用,这个应用接受用户的询问,从历史语料库中检索相关的历史资料片段,利用大语言模型给出较为可靠的回答。相比于直接询问大模型,这种方式具有回答准确率高,不容易产生大模型的“幻觉”问题等优点。本项目实现了两种使用方式:“Milvus方案“在本地启动一个Milvus向量数据库的Docker服务,使用LlamaIndex框架和本地BAAI/bge-base-zh-v1.5Embedding模型实现RAG的业务逻辑。“ZillizCloudPipelines方案”使用云上的知识库检索服务ZillizCloudPipelines,该服务包括了RAG流程的文档切片、向量化、向量检索等功能。两种方案均使用OpenAI的GPT4作为大语言模型。

封面图片

紫天旗下麦粒网络与秘塔 AI 达成深度战略合作及采购意向

紫天旗下麦粒网络与秘塔AI达成深度战略合作及采购意向麦粒网络今日官微消息,近日,紫天旗下麦粒网络与秘塔AI达成战略合作,双方将在图文、视频语料采购和AI训练资源领域展开深入合作,以应用于多模态数据训练和面向游戏的AIGC。麦粒网络基于多年为数万家合作伙伴提供内容创作运营的积累,将为秘塔AI提供丰富的图文、视频语料供给多模态训练,此外该语料库还将为秘塔AIGC服务提供坚实的数据基础,助力于移动游戏开发创作。秘塔AI已与麦粒网络达成语料采购意向。麦粒网络将以10~30元人民币/分钟的视频语料单价,每月为合作伙伴提供超过2000小时视频语料用于AI多模态训练。

封面图片

Stack Overflow 将对使用其数据训练 AI 收费

StackOverflow将对使用其数据训练AI收费在Reddit之后,编程问答社区StackOverflow也将对科技巨头们使用其数据训练AI收费。和Reddit类似,StackOverflow也有着高质量的问答语料库,它有2000万注册用户,5000万问题和答案。StackOverflow的内容所有权属于原作者,采用了CCBY-SA授权,也就是使用时要求署名。CEOPrashanthChandrasekar称,使用该平台数据集训练大语言模型的公司违反了该许可证,在将模型出售给客户时无法为每一个问题和答案归属,违反了CC许可证。无论是StackOverflow或Reddit都没有公布收费价格。也许Twitter的定价可以作为参考:每月4.2万美元。来源,来自:雷锋频道:@kejiqu群组:@kejiquchat投稿:@kejiqubot

封面图片

离线中英文词典数据库 | ECDICT | #数据库 #词典

离线中英文词典数据库#数据库#词典这是一份英文->中文字典的双解词典数据库,根据各类考试大纲和语料库词频收录数十万条各类单词的英文和中文释义,并按照各类考试大纲和词频进行标注。​​​“最初开发看书软件时需要给软件添加一个内嵌字典,在网上找到了一份别人提供的EDictAZ.txt的文本文件,里面有差不多两万英文单词的释义,于是开始用这个文件来提供字典查询,用着用着不够用了,又找到一份四六级到GRE包含释义的词汇表,但是缺少音标,于是写了个爬虫从各种资料里面把音标给爬下来,外加自己补充了一些组成了一份三万基本词汇的数据库。其后数年根据各种资料和网友贡献词库增长到10万左右,又找到Linux下面的cdict-1.0-1.rpm这个开源字典数据(mdict的主词库也是根据cdict转换得到),并按照英国国家语料库的前16万单词进行校对,补全很多语料库里词频较高但是却没有收录的词条。”

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人