OmniFusion:高级的多模态 AI 模型,旨在通过集成其他数据模态(如图像、音频、3D 和视频内容)来扩展传统语言处理系统
:高级的多模态AI模型,旨在通过集成其他数据模态(如图像、音频、3D和视频内容)来扩展传统语言处理系统的功能。开源OmniFusion核心是Mistral-7B。该模型有两个版本:第一个使用一个视觉编码器CLIP-ViT-L,第二个使用两个编码器(CLIP-ViT-L和DinoV2)。最初专注于图像,我们选择CLIP-ViT-L作为视觉编码器,因为它具有高效的信息传输能力。OmniFusion最重要的组件是它的适配器,这是一种允许语言模型解释和合并来自不同模式的信息的机制。对于单编码器版本,适配器是单层四头变压器层,与更简单的线性层或MLP结构相比,它表现出了卓越的性能。具有两个编码器的模型使用一个适配器,该适配器从视觉编码器的所有层收集特征,该适配器没有注意层。该适配器从视觉编码器(不包括CLS令牌)获取嵌入,并将它们映射到与语言模型兼容的文本嵌入。