:最新的高性能全开源文本嵌入模型
:最新的高性能全开源文本嵌入模型
Nomic发布了第一个完全开源的文本嵌入模型Nomic Embed,其文本长度可达8192,性能超过OpenAI的Ada和其他开源模型。
Nomic Embed的模型权重、训练代码和用于训练的数据集都是完全开源的,可以进行全面审计。
Nomic Embed可以通过Nomic Atlas嵌入API进行商业部署,提供100万免费调用量,也可以通过Nomic Atlas企业版进行可靠、合规的企业级部署。
文本嵌入是现代NLP中一个关键组件,Nomic Embed通过多阶段的对比训练获得。首先预训练BERT,然后在大规模非监督数据上进行对比训练,最后在小规模标注数据上微调。
Nomic Embed在多个基准测试中表现强劲,尤其是在长文本任务上优于Ada。它提供了一个高性能且可审计的开源文本嵌入方案。
Nomic还发布了所有用于训练的数据,以实现完全的模型可审计性。希望社区可以基于Nomic Embed继续推进开源AI。