Databricks开源DBRX高性能大语言模型
开源DBRX高性能大语言模型DBRX是Databricks开发的开源通用语言模型,在多项标准基准测试上达到了当前开源语言模型的最高水平。DBRX在多项综合基准测试中表现最好,尤其在编程和数学推理方面优于其他开源模型。与开源模型相比,DBRX在MMLU数据集上的表现也是最好的。根据测试,DBRX甚至超过了专门用于编程的CodeLLAMA-70B,并且与商业模型GPT-3.5相当甚至略胜。DBRX也与Gemini1.0Pro和MistralMedium等商业模型有竞争力。DBRX使用混合专家(MoE)架构,使其在训练和推理上更加高效。与类似参数量的非MoE模型相比,DBRX的推理吞吐量提高2-3倍。DBRX的整体训练效率比之前提高了近4倍,这得益于更好的数据、MoE架构以及其他改进。DBRX已经在Databricks的GenAI产品中进行了集成,客户可以通过API使用该模型。DBRX的训练代码和模型也在HuggingFace平台上开源。DBRX证明了Databricks可以高效地训练世界级的基础语言模型,也为企业训练自己的基础模型提供了能力。DBRX只是Databricks协助客户训练定制语言模型的一个例子。