多模态大语言模型(MLLM)为什么最近的工作中用BLIP2中Q-Former结构的变少了?
多模态大语言模型(MLLM)为什么最近的工作中用BLIP2中Q-Former结构的变少了? Coobiw的回答 发表下愚见~ 个人对于Q-former的“理解”分为两部分: ● 本质:cross-attention based的visual token压缩结构 ● 参数量:12层transformer block(原生q-former是采用bert-uncased-base进行初始化的) 这也是大家回答中比较关注的两个方面: ● 成本问题,认为Q-former训练的成本较高,需要更多的数据,且目前看来尽管使用更多数据,性能上与MLP相比也没有优势 ● visual tokens是否需要压缩,压缩是否影响效果 Q-former少了,但是是12层的Q-former少了 前者也是我个人认为的Q-former逐渐变少的一个比较重要的原因,12层transformer blocks的q-former仅仅作为一个connector确实有点太heavy了,这主要是因为:无论是BLIP2还是InstructBLIP所有阶段都仅训练Q-former,没有打开LLM进行训练。在这种情况下需要性能上对标BEiT-3、Flamingo等模型,不把Q-former做大应该也比较困难吧。而不打开LLM训练,在指令遵循以及多模态对话的答案长度上都有些欠缺,大家就都选择在第二个stage多多少少打开些LLM训练(mPlug-Owl等使用lora,LLaVA、Qwen-VL等全开LLM),这种情况下Q-former自然就会变小,比如mPlug-Owl中的visual abstractor是6层transformer blocks,Qwen-VL的resampler是1层cross-attention block。 从BLIP2 -> mPlug-Owl -> Qwen-VL,12层 + 不训LLM -> 6层 + LLM Lora -> 1层 + LLM全开,应该可以粗略的得出“Q-former”的大小和后续LLM的可训练参数数目有关这个结论。 说了这么多,其实想表达,模型参数量上的成本问题个人认为不能归咎于Q-former这个结构本身。Q-former少了,是12层的Q-former少了,随着LLM逐渐打开,Q-former在变小。但其本质cross-attention based的visual token压缩策略其实到现在也广泛使用(如:idefics2等)。这样就很自然的过渡到第二个问题:visual tokens是否需要压缩,压缩是否影响效果。 MLP vs Resampler? visual tokens是否需要压缩,压缩是否影响效果?这大致(80%?)可以认为是MLP vs Resampler的争斗。在现在广泛使用的一层cross-attention block的resampler,和MLP在参数量上接近(无所谓的,对于LLM部分都可以忽略不计)。但resampler降低tokens后,在高分辨率、多图、视频的训练上都会降低很多成本,实际上讨论到这里,MLP反而成为了成本更高的那个。但MLP可以认为是信息无损的,这就要谈到高赞回答中的有损压缩观点了。 对于高赞中有损压缩的观点我也很认可,Q-former这类resampler压缩视觉tokens一定是会有信息损失的,这个问题可能在低分辨率(或者说低信息量)的图像中不明显,像vqa_v2上,就不会有明显差异。但在高信息量的图像(比如text-rich的文档)上,token的数目应该就很重要了,这也符合有损压缩的说法。 So,这就变成了一个token长度和信息保真的trade-off了,在LLaVA-1.5这类setting下(不太考虑多图和视频),选MLP自然make sense。在考虑多图对话、视频对话的MLLM中,多半还是会使用resampler来降低视觉部分的tokens成本。总体来讲MLP和Resampler都用的很多。 MLP和Resampler之“争”应该还会持续很久,毕竟这并不是主要因素,相比修改connector,更多高质量数据、更强的ViT、更强的LLM对MLLM的提升更大。也是这个原因,在发现1层的”Q-former“也能work的时候,12层的Q-former就自然被冷落了。 写在最后,Q-former这类结构在多图和视频中真的很好用,自己做了个有关多轮对话+视频对话+涌现出的多图推理的MLLM项目是用它在做,毕竟没啥好卡,成本低就好hhh 自己的广告位: Coobiw:MPP-Qwen-Next: 引入多轮对话+视频对话 涌现多图对话 via 知乎热榜 (author: Coobiw)
在Telegram中查看相关推荐

🔍 发送关键词来寻找群组、频道或视频。
启动SOSO机器人