Nomic Embed:最新的高性能全开源文本嵌入模型

:最新的高性能全开源文本嵌入模型Nomic发布了第一个完全开源的文本嵌入模型NomicEmbed,其文本长度可达8192,性能超过OpenAI的Ada和其他开源模型。NomicEmbed的模型权重、训练代码和用于训练的数据集都是完全开源的,可以进行全面审计。NomicEmbed可以通过NomicAtlas嵌入API进行商业部署,提供100万免费调用量,也可以通过NomicAtlas企业版进行可靠、合规的企业级部署。文本嵌入是现代NLP中一个关键组件,NomicEmbed通过多阶段的对比训练获得。首先预训练BERT,然后在大规模非监督数据上进行对比训练,最后在小规模标注数据上微调。NomicEmbed在多个基准测试中表现强劲,尤其是在长文本任务上优于Ada。它提供了一个高性能且可审计的开源文本嵌入方案。Nomic还发布了所有用于训练的数据,以实现完全的模型可审计性。希望社区可以基于NomicEmbed继续推进开源AI。

相关推荐

封面图片

Databricks开源DBRX高性能大语言模型

开源DBRX高性能大语言模型DBRX是Databricks开发的开源通用语言模型,在多项标准基准测试上达到了当前开源语言模型的最高水平。DBRX在多项综合基准测试中表现最好,尤其在编程和数学推理方面优于其他开源模型。与开源模型相比,DBRX在MMLU数据集上的表现也是最好的。根据测试,DBRX甚至超过了专门用于编程的CodeLLAMA-70B,并且与商业模型GPT-3.5相当甚至略胜。DBRX也与Gemini1.0Pro和MistralMedium等商业模型有竞争力。DBRX使用混合专家(MoE)架构,使其在训练和推理上更加高效。与类似参数量的非MoE模型相比,DBRX的推理吞吐量提高2-3倍。DBRX的整体训练效率比之前提高了近4倍,这得益于更好的数据、MoE架构以及其他改进。DBRX已经在Databricks的GenAI产品中进行了集成,客户可以通过API使用该模型。DBRX的训练代码和模型也在HuggingFace平台上开源。DBRX证明了Databricks可以高效地训练世界级的基础语言模型,也为企业训练自己的基础模型提供了能力。DBRX只是Databricks协助客户训练定制语言模型的一个例子。

封面图片

一个比较不错的中文大模型解决方案,代码完全开源,无商用限制。

一个比较不错的中文大模型解决方案,代码完全开源,无商用限制。近日,Colossal-AI团队充分利用了LLaMA-2的基础能力,采用高效的训练方法,仅使用约8.5Btoken数据、15小时、数千元的训练成本,成功构建了性能卓越的中文LLaMA-2,在多个评测榜单性能优越。相较于原始LLaMA-2,在成功提升中文能力的基础上,进一步提升其英文能力,性能可与开源社区同规模预训练SOTA模型媲美。该项目在GitHub完全开源了全套训练流程、代码及权重,无商用限制,并提供了一个完整的评估体系框架ColossalEval,以实现低成本的可复现性。不仅如此,相关方案还可迁移应用到任意垂类领域,以及从头预训练大模型的低成本构建。

封面图片

OpenAI发布新嵌入模型,降低GPT-3.5 Turbo价格 | blog

OpenAI发布新嵌入模型,降低GPT-3.5Turbo价格OpenAI发布了新的嵌入模型和API更新,包括两个新的嵌入模型、更新的GPT-4Turbo预览模型、更新的GPT-3.5Turbo模型和更新的文本审核模型。新的嵌入模型包括一个小型高效的text-embedding-3-small模型和一个大型高性能的text-embedding-3-large模型,允许开发者在使用嵌入时权衡性能和成本,特别是可以通过减少嵌入的维数(即从序列的末尾移除一些数字)来实现。这些模型能够创建最多3072维的嵌入。OpenAI表示,发送到OpenAIAPI的数据默认不会被用来训练或改进OpenAI模型。

封面图片

API for Open LLMs:开源大模型的统一后端接口,支持多种开源大模型

:开源大模型的统一后端接口,支持多种开源大模型该项目为开源大模型的推理实现统一的接口接口,与OpenAI响应保持一致,具有以下特性:以OpenAIChatGPTAPI这样的方式调用开源分布式大模型支持流式响应,实现打印机效果实现文本嵌入模型,为文档知识问答提供支持支持大规模语言模型开发工具langchain的广泛功能要简单的修改环境变量即可将开源模型作为chatgpt的替代模型,为大众应用提供反馈支持支持加载经过自行训练的lora模型

封面图片

英伟达的通用大模型 Nemotron,开源了最新的 3400 亿参数版本。

英伟达的通用大模型Nemotron,开源了最新的3400亿参数版本。本周五,英伟达宣布推出Nemotron-4340B。它包含一系列开放模型,开发人员可以使用这些模型生成合成数据,用于训练大语言模型(LLM),可用于医疗健康、金融、制造、零售等所有行业的商业应用。高质量的训练数据在自定义LLM的响应性能、准确性和质量中起着至关重要的作用——但强大的数据集经常是昂贵且难以访问的。通过独特的开放模型许可,Nemotron-4340B为开发人员提供了一种免费、可扩展的方式来生成合成数据,从而帮助人们构建强大的LLM。Nemotron-4340B系列包括基础、Instruct和Reward模型,它们形成了一个pipeline,用于生成训练和改进LLM的合成数据。这些模型经过优化,可与NVIDIANeMo配合使用,后者是一个用于端到端模型训练的开源框架,包括数据管理、定制和评估。它们还针对开源NVIDIATensorRT-LLM库的推理进行了优化。英伟达表示,Nemotron-4340B现已可从HuggingFace下载。开发人员很快就能在ai.nvidia.com上访问这些模型,它们将被打包为NVIDIANIM微服务,并带有可在任何地方部署的标准应用程序编程接口。大语言模型可以帮助开发人员在无法访问大型、多样化标记数据集的情况下生成合成训练数据。Nemotron-4340BInstruct模型创建了多样化的合成数据,模仿了现实世界数据的特征,有助于提高数据质量,从而提高自定义LLM在各个领域的性能和鲁棒性。来源:机器之心

封面图片

蚂蚁集团开源高性能图数据库 TuGraph,成立图计算开源委员会

蚂蚁集团开源高性能图数据库TuGraph,成立图计算开源委员会图数据库领域权威测试世界纪录保持者,蚂蚁图数据库TuGraph宣布开源。9月1日,2022世界人工智能大会“新一代图智能技术发展与实践论坛”上,蚂蚁集团图计算负责人陈文光宣布开源蚂蚁集团高性能图数据库TuGraph单机版,并成立图计算开源技术委员会,中国工程院院士郑纬民、陈纯分别担任主席、副主席,5位业界知名专家担任委员TuGraph由蚂蚁集团和清华大学共同研发,是图数据库权威测试世界纪录保持者,也是世界上有测试纪录的“最快”的图数据库。随着TuGraph的开源,图数据领域将迎来一款性能卓越、功能丰富、生态完备的开源产品。开发者可以聚焦应用层,轻松打造属于自己的图数据,从而提升行业整体技术应用水位。TuGraph开源采用Apache2.0协议,在Github和Gitee上进行托管。图数据库区别于关系型数据库,基于图模型,使用点边来表示、存储、处理数据,拥有灵活的数据抽象模型,能够更好地表达出“关系”的概念。蚂蚁TuGraph是一套分布式图数据库系统,可以支持万亿级边上的实时查询。此次开源的TuGraph单机版,同样具备完备的图数据库基础功能和成熟的产品设计,可以轻松支持TB级别数据和百亿级别大图,足以满足大多数业务场景需求。相较于市场上常见的开源产品,TuGraph单机版的性能高10倍以上。...来自:雷锋频道:@kejiqu群组:@kejiquchat投稿:@kejiqubot

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人