Databricks开源DBRX高性能大语言模型

开源DBRX高性能大语言模型DBRX是Databricks开发的开源通用语言模型,在多项标准基准测试上达到了当前开源语言模型的最高水平。DBRX在多项综合基准测试中表现最好,尤其在编程和数学推理方面优于其他开源模型。与开源模型相比,DBRX在MMLU数据集上的表现也是最好的。根据测试,DBRX甚至超过了专门用于编程的CodeLLAMA-70B,并且与商业模型GPT-3.5相当甚至略胜。DBRX也与Gemini1.0Pro和MistralMedium等商业模型有竞争力。DBRX使用混合专家(MoE)架构,使其在训练和推理上更加高效。与类似参数量的非MoE模型相比,DBRX的推理吞吐量提高2-3倍。DBRX的整体训练效率比之前提高了近4倍,这得益于更好的数据、MoE架构以及其他改进。DBRX已经在Databricks的GenAI产品中进行了集成,客户可以通过API使用该模型。DBRX的训练代码和模型也在HuggingFace平台上开源。DBRX证明了Databricks可以高效地训练世界级的基础语言模型,也为企业训练自己的基础模型提供了能力。DBRX只是Databricks协助客户训练定制语言模型的一个例子。

相关推荐

封面图片

Databricks 发布最大开源大语言模型 DBRX

Databricks发布最大开源大语言模型DBRX美国AI初创公司Databricks周三公布,该公司开发的通用大语言模型DBRX将开源。DBRX在语言理解、编程、数学和逻辑方面轻松击败了Meta的Llama2-70B、法国MixtralAI公司的Mixtral和马斯克旗下xAI开发的Grok-1这类当前流行的开源模型。DBRX在30多种不同的最先进模型(SOTA)基准指标测试中,均优于前述三种大模型。DBRX使用混合专家架构(MoE),拥有16个专家模型,共1320亿参数。该模型使用3072英伟达H100GPU在12万亿个token的数据集上进行训练,最大支持32k的上下文窗口。同时,Databrick也开源了该模型经过指令微调(instructfinetune)的版本。——,

封面图片

苹果发布 OpenELM 大语言模型,基于开源训练和推理框架的语言模型

苹果发布OpenELM大语言模型,基于开源训练和推理框架的语言模型在WWDC24之前,苹果在HuggingFace平台上发布了一个“具有开源训练和推理框架的高效语言模型”,名为OpenELM。苹果这次发布了完整的框架,包括数据准备、训练、微调和评估程序,以及多个预训练的checkpoint和训练日志,以促进开源研究。其源码及预训练的模型权重和训练配方可在苹果Github库中获取。

封面图片

Nomic Embed:最新的高性能全开源文本嵌入模型

:最新的高性能全开源文本嵌入模型Nomic发布了第一个完全开源的文本嵌入模型NomicEmbed,其文本长度可达8192,性能超过OpenAI的Ada和其他开源模型。NomicEmbed的模型权重、训练代码和用于训练的数据集都是完全开源的,可以进行全面审计。NomicEmbed可以通过NomicAtlas嵌入API进行商业部署,提供100万免费调用量,也可以通过NomicAtlas企业版进行可靠、合规的企业级部署。文本嵌入是现代NLP中一个关键组件,NomicEmbed通过多阶段的对比训练获得。首先预训练BERT,然后在大规模非监督数据上进行对比训练,最后在小规模标注数据上微调。NomicEmbed在多个基准测试中表现强劲,尤其是在长文本任务上优于Ada。它提供了一个高性能且可审计的开源文本嵌入方案。Nomic还发布了所有用于训练的数据,以实现完全的模型可审计性。希望社区可以基于NomicEmbed继续推进开源AI。

封面图片

Arweave AO计划推出链上开源大语言模型

ArweaveAO计划推出链上开源大语言模型PANews6月21日消息,Arweave公共测试网ArweaveAO在X平台宣布推出“AIonAO”计划,计划推出链上开源大语言模型(LLMs),旨在将任何AI模型(不仅仅是LLMs)带到链上。基于ApusNetwork,利用Arweave的永久链上存储,构建一个去中心化、无信任的GPU网络,致力于为AI训练和推理提供可靠、高效和低成本的计算能力。AO上的AI数据可通过ArDrive上传到Arweave的模型。https://www.panewslab.com/zh/sqarticledetails/t1a1oxkv.html

封面图片

Command-R:多语言、高性能、可定制:350亿参数的开源语言模型

:多语言、高性能、可定制:350亿参数的开源语言模型-C4AICommand-R是一个350亿参数的高性能生成式模型,由Cohere和CohereForAI联合开发。-Command-R是一个大型语言模型,其开放权重针对多种用例进行了优化,包括推理、摘要和问答。-Command-R具有多语言生成能力,在10种语言上进行了评估,并具有高性能的RAG(Retrieval-AugmentedGeneration)能力。-该模型的许可证为CC-BY-NC,使用时还需遵守C4AI的可接受使用政策。-Command-R的上下文长度为128K,可以使用HuggingFace的Transformers库进行调用和使用。-C4AICommand-R的发布展示了Cohere在开发大型语言模型方面的实力。350亿参数的模型规模处于业界领先水平,有望在多个应用领域取得突破。-Command-R的开放权重和对多种用例的优化,为开发者和研究者提供了灵活性和可定制性。这有助于促进模型的应用和创新。-多语言生成能力和高性能RAG能力的结合,使Command-R在跨语言任务和知识密集型任务上具有独特优势。这可能推动自然语言处理技术在全球范围内的普及和应用。-CC-BY-NC许可证和C4AI的可接受使用政策体现了Cohere对于负责任AI开发的重视。在开放模型的同时,设置合理的使用边界,有助于防范潜在的滥用风险。-基于HuggingFace生态系统发布模型,降低了用户的使用门槛。这种与主流开源社区的融合,有利于Command-R的推广和迭代。-尽管Command-R的开放权重提供了灵活性,但对于缺乏计算资源的中小型开发者而言,350亿参数的模型规模可能难以承受。这可能加剧AI开发的门槛和不平等。-Command-R在多语言任务上的出色表现,可能促使更多开发者将其应用于跨文化交流和全球化业务。但过度依赖单一模型,可能忽视了不同语言和文化的独特性。-开放模型虽然有利于创新,但也可能加剧恶意使用和滥用的风险。即使有使用政策的约束,在实践中难以对每一个应用进行有效监管。这需要技术和制度的双重发力。

封面图片

微软研究院发布了Orca 2 LLM 其性能可媲美大语言模型

微软研究院发布了Orca2LLM其性能可媲美大语言模型微软在一篇博文中表示,Orca2是专为小规模LM设计的,但仍可用于回答LLM等复杂问题。Orca2有两种大小(70亿和130亿个参数),部分是利用今年早些时候微软帮助Meta推出的Llama2LLM制作的。该公司"根据量身定制的高质量合成数据"对基于Llama2的模型进行了微调。微软表示,这使得Orca2模型在处理问题时能够与其他"5-10倍大"的语言模型相媲美:Orca2使用扩展的、高度定制的合成数据集进行训练。这些训练数据的生成,向Orca2传授了各种推理技术,如逐步处理法、回忆然后生成法、回忆-推理-生成法、提取-生成法和直接回答法,同时还教会它针对不同的任务选择不同的解决策略。Orca2模型与Llama2和WizardLM等大型语言模型进行了一系列基准测试,测试内容包括"语言理解、常识推理、多步骤推理、数学问题解决、阅读理解"等。微软官方博客称:我们的初步测试结果表明,Orca2的性能大大超越了类似规模的模型。它还达到了类似或优于至少比它大10倍的模型的性能水平,展示了为更小的模型配备更好的推理能力的潜力。虽然微软承认Orca2确实存在局限性,但迄今为止的测试显示了"未来进步的潜力"。微软将把Orca2作为一个开源项目发布,以便其他人也能对其进行开发。...PC版:https://www.cnbeta.com.tw/articles/soft/1398829.htm手机版:https://m.cnbeta.com.tw/view/1398829.htm

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人