归纳了当前视觉语言模型的主要方法，即对比学习、掩码、生成式和利用预训练模型，阐述了各自的工作机制、优势和局限，为视觉语言模型研究

视觉语言模型详解

：更好的通用预训练语言模型

：更好的通用预训练语言模型 Pile-T5通过在Pile数据集上预训练T5模型，并使用LLAMA分词器，改进了原始T5的编码能力。 Pile-T5总体上明显优于原始T5v1.1模型，尤其在代码任务上的提升更大。这主要得益于Pile中包含代码数据以及LLAMA分词器包含编程常用字符。在多个下游任务的微调中，Pile-T5不同规模的模型表现优异，如在SuperGLUE、CodeXGLUE、MMLU和BigBench Hard上的结果。尽管与专门微调的Flan-T5相比略逊色，但Pile-T5仍优于T5v1.1，表明其预训练质量更高，更适合多任务微调。公开了Pile-T5模型在不同训练步长的中间检查点，这有利于模型演化和解释性研究。 Pile-T5 Large模型在某些任务上的表现不佳，可能存在bug，用户需谨慎使用。

：开源的视觉-语言(VL)模型，旨在实现真实世界的视觉语言理解。

：开源的视觉-语言(VL)模型，旨在实现真实世界的视觉语言理解。它具有广泛的多模态理解能力，能够处理逻辑图表、网页、公式识别、科学文献、自然图像和复杂场景中的具体智能等。 DeepSeek-VL提供了多个模型版本，包括不同规模和功能的模型，以满足不同的研究和商业应用需求。

：赋予大型预训练语言模型遵循复杂指令的能力

：赋予大型预训练语言模型遵循复杂指令的能力遵循指令的能力对大部分开源大语言模型来说是一个独特的挑战。该项目提出的解决方案是使用LLM本身来生成指令数据。研究人员开发的Evol-Instruct方法随机选择不同类型的进化操作来将简单指令升级为更复杂的指令，或者创建全新的指令。然后使用进化的指令数据来微调LLM，从而创建WizardLM。

LeCun 的 LLMs 退烧贴，把语言模型的局限写的很清楚

| #指南 - Transformer是训练语言模型最常用的架构。预训练再微调是训练语言模型的主要方法。