昆仑万维开源了自己的Skywork大模型 | Skywork

昆仑万维开源了自己的Skywork大模型本次开源的模型有Skywork-13B-Base模型、Skywork-13B-Chat模型、Skywork-13B-Math模型和Skywork-13B-MM模型,以及每个模型的量化版模型,以支持用户在消费级显卡进行部署和推理。Skywork开源项目的特点有:Skywork-13B-Base模型在高质量清洗过滤的3.2万亿个多语言(主要是中文和英文)和代码数据上进行预训练,它在多种评测和各种基准测试上都展现了同等规模模型的最佳效果。Skywork-13B-Chat模型具备强大的对话能力,我们在文创领域进行了进一步的针对性增强。我们通过构建一万多条高质量指令数据集,在10个文创任务上进行了针对性微调,使我们的模型在文创任务中能够接近ChatGPT的效果。此外,我们开源了针对这10个文创任务上的大约500条样本组成的benchmark。Skywork-13B-Math模型经过专门的数学能力强化训练。在13B参数规模下,我们的模型在GSM8K评测上得分第一,同时在MATH数据集以及CMATH上也表现优异,处于13B模型顶尖水平。Skywork-13B-MM多模态模型支持用户输入图片信息进行问答,对话等任务。Skywork/Skypile-150B数据集是根据我们经过精心过滤的数据处理流程从中文网页中筛选出的高质量数据。本次开源的数据集大小约为600GB,总的token数量约为150B,是目前开源最大中文数据集。除此之外,我们还公开了训练Skywork-13B模型中使用的评估方法、数据配比研究和训练基础设施调优方案等信息。我们希望这些开源内容能够进一步启发社区对于大型模型预训练的认知,并推动人工智能通用智能(AGI)的实现。

相关推荐

封面图片

昆仑万维开源 2 千亿稀疏大模型天工 MoE,全球首创能用 4090 推理

昆仑万维开源2千亿稀疏大模型天工MoE,全球首创能用4090推理据昆仑万维官微,2024年6月3日,昆仑万维宣布开源2千亿稀疏大模型Skywork-MoE,性能强劲,同时推理成本更低。Skywork-MoE基于之前昆仑万维开源的Skywork-13B模型中间checkpoint扩展而来,是首个完整将MoEUpcycling技术应用并落地的开源千亿MoE大模型,也是首个支持用单台4090服务器推理的开源千亿MoE大模型。

封面图片

MAmmoTH:专门为解决通用数学问题而定制的开源大语言模型。

MAmmoTH:专门为解决通用数学问题而定制的开源大语言模型。MAmmoTH模型结合了CoT和PoT两种思维方式,使其能够更全面地解决各种数学问题(从基础算术到高等数学)。在九个数学推理数据集上显著超越了现有的开源模型,平均准确率提高了13%到29%。MAmmoTH在一个精心策划的指导调优数据集MathInstruct上进行训练,MathInstruct从13个带有中间理由的数学数据集中编译而来,其中六个是由作者新策划的。MAmmoTH基于LLaMa2和CodeLlama训练的数学领域的开源LLM,有7B、13B、34B、70B四个版本。MAmmoTH的工作原理是通过混合指导调优方法,结合两种不同的思维方式,训练模型来解决各种数学问题。这种方法确保了模型在各种数学领域都有很好的表现,并且在实际应用中也取得了显著的性能提升。

封面图片

英伟达的通用大模型 Nemotron,开源了最新的 3400 亿参数版本。

英伟达的通用大模型Nemotron,开源了最新的3400亿参数版本。本周五,英伟达宣布推出Nemotron-4340B。它包含一系列开放模型,开发人员可以使用这些模型生成合成数据,用于训练大语言模型(LLM),可用于医疗健康、金融、制造、零售等所有行业的商业应用。高质量的训练数据在自定义LLM的响应性能、准确性和质量中起着至关重要的作用——但强大的数据集经常是昂贵且难以访问的。通过独特的开放模型许可,Nemotron-4340B为开发人员提供了一种免费、可扩展的方式来生成合成数据,从而帮助人们构建强大的LLM。Nemotron-4340B系列包括基础、Instruct和Reward模型,它们形成了一个pipeline,用于生成训练和改进LLM的合成数据。这些模型经过优化,可与NVIDIANeMo配合使用,后者是一个用于端到端模型训练的开源框架,包括数据管理、定制和评估。它们还针对开源NVIDIATensorRT-LLM库的推理进行了优化。英伟达表示,Nemotron-4340B现已可从HuggingFace下载。开发人员很快就能在ai.nvidia.com上访问这些模型,它们将被打包为NVIDIANIM微服务,并带有可在任何地方部署的标准应用程序编程接口。大语言模型可以帮助开发人员在无法访问大型、多样化标记数据集的情况下生成合成训练数据。Nemotron-4340BInstruct模型创建了多样化的合成数据,模仿了现实世界数据的特征,有助于提高数据质量,从而提高自定义LLM在各个领域的性能和鲁棒性。来源:机器之心

封面图片

作为当下最受欢迎的开源 AI 大模型解决方案,GitHub 上一个开源项目 Colossal-AI 建立了一整套完整的 RLHF

作为当下最受欢迎的开源AI大模型解决方案,GitHub上一个开源项目Colossal-AI建立了一整套完整的RLHF流程,包括:监督数据集收集->监督微调->奖励模型训练->强化学习微调。并且,技术团队以LLaMA为基础预训练模型,正式推出了ColossalChat,这也是目前最接近ChatGPT原始技术方案的实用开源项目。该项目包括但不限于以下功能:-Demo:可直接在线体验模型效果,无需注册或waitinglist;-训练代码:开源完整RLHF训练代码,已开源至含7B和13B两种模型;-数据集:开源104K中、英双语数据集;-推理部署:4bit量化推理70亿参数模型仅需4GB显存;-模型权重:仅需单台服务器少量算力即可快速复现;-更大规模模型、数据集、其他优化等将保持高速迭代添加。目前,相关代码已开源至GitHub,感兴趣的同学可以看下。项目还有提供完整的中文教程,进一步降低学习门槛,让大家能更快上手开发。

封面图片

Databricks开源DBRX高性能大语言模型

开源DBRX高性能大语言模型DBRX是Databricks开发的开源通用语言模型,在多项标准基准测试上达到了当前开源语言模型的最高水平。DBRX在多项综合基准测试中表现最好,尤其在编程和数学推理方面优于其他开源模型。与开源模型相比,DBRX在MMLU数据集上的表现也是最好的。根据测试,DBRX甚至超过了专门用于编程的CodeLLAMA-70B,并且与商业模型GPT-3.5相当甚至略胜。DBRX也与Gemini1.0Pro和MistralMedium等商业模型有竞争力。DBRX使用混合专家(MoE)架构,使其在训练和推理上更加高效。与类似参数量的非MoE模型相比,DBRX的推理吞吐量提高2-3倍。DBRX的整体训练效率比之前提高了近4倍,这得益于更好的数据、MoE架构以及其他改进。DBRX已经在Databricks的GenAI产品中进行了集成,客户可以通过API使用该模型。DBRX的训练代码和模型也在HuggingFace平台上开源。DBRX证明了Databricks可以高效地训练世界级的基础语言模型,也为企业训练自己的基础模型提供了能力。DBRX只是Databricks协助客户训练定制语言模型的一个例子。

封面图片

Nomic Embed:最新的高性能全开源文本嵌入模型

:最新的高性能全开源文本嵌入模型Nomic发布了第一个完全开源的文本嵌入模型NomicEmbed,其文本长度可达8192,性能超过OpenAI的Ada和其他开源模型。NomicEmbed的模型权重、训练代码和用于训练的数据集都是完全开源的,可以进行全面审计。NomicEmbed可以通过NomicAtlas嵌入API进行商业部署,提供100万免费调用量,也可以通过NomicAtlas企业版进行可靠、合规的企业级部署。文本嵌入是现代NLP中一个关键组件,NomicEmbed通过多阶段的对比训练获得。首先预训练BERT,然后在大规模非监督数据上进行对比训练,最后在小规模标注数据上微调。NomicEmbed在多个基准测试中表现强劲,尤其是在长文本任务上优于Ada。它提供了一个高性能且可审计的开源文本嵌入方案。Nomic还发布了所有用于训练的数据,以实现完全的模型可审计性。希望社区可以基于NomicEmbed继续推进开源AI。

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人