摘要:今天看一篇发表在ACL顶会,关于多模态大语言模型的综述文章《The Revolution of Multimodal Large Language Models: A Survey》。
今天看一篇发表在ACL顶会,关于多模态大语言模型的综述文章《The Revolution of Multimodal Large Language Models: A Survey》。
对文本和视觉模态的连接在生成式智能中起着至关重要的作用。因此,受到大语言模型成功的启发,大量的研究工作致力于开发多模态大语言模型(MLLM)。这些模型可以无缝集成视觉和文本模态,同时提供基于对话的界面和指令遵循能力。本文对最近的基于视觉的MLLM进行了全面的综述,分析了它们的架构选择、多模态对齐策略和训练技术。还对这些模型在广泛的任务中进行了详细的分析,包括视觉定位、图像生成和编辑、视觉理解以及特定领域的应用。此外,本文还汇编和描述了训练数据集和评估基准,对现有模型在性能和计算需求方面进行了比较。总的来说,本次调研全面概述了当前的技术水平,为未来的MLLM奠定了基础。
迈向多模态LLM。多模态LLM(MLLM)的开发与LLM的开发路径相似,其中Flamingo[1]是第一个在视觉-语言领域探索大规模上下文学习的模型。随后,视觉指令调优[2]迅速成为多模态领域最突出的训练范式,以及使用PEFT(parameter-efficient fine-tuning)技术来微调LLM。任何MLLM至少包含三个组成部分(图1):一个作为与用户交互界面的LLM主干,一个(或多个)视觉编码器,以及一个或多个视觉到语言的适配器模块。LLM主干的常见选择通常是LLaMA系列[3],因为它们的权重可以自由访问,它们仅在公共数据上进行训练,并且它们拥有不同的大小以适应各种用例。此外,它们的衍生版本也很受欢迎,例如Alpaca[4]和Vicuna[5]。前者在GPT-3编写的指令上微调LLaMA,而后者则利用用户与ChatGPT[6]共享的对话。其他选择包括OPT[7]、Magneto[8]、MPT[9]以及T5[10]的指令调优[11]或多语言[12]版本,T5是一种为多项任务预训练的编码器-解码器语言模型。
图1
模型组件的预训练。MLLM 的主要组件是视觉编码器和语言模型。视觉编码器旨在为 LLM 提供视觉信息,最常用的是基于 CLIP 的架构[13][14],其预训练目标是 CLIP 嵌入之间的对齐,这要归功于对比损失,该损失对齐了正确的图像-文本对。一个例外是 EVA-CLIP 模型系列[15],它利用 MAE 预训练策略 [16]来重建被屏蔽的图像-文本对齐的视觉特征,以可见的图像块为条件。另一方面,LLM 主要依赖于广泛使用的 Transformer 模型,尽管 Mamba 架构[17]近来也已出现。这建议使状态空间模型 (SSM) 具有时间依赖性,从而有效地创建一个具有良好特性的选择性 SSM:(i) 推理成本和内存需求与序列长度成线性比例,以及 (ii) 由于该算法的智能 GPU 实现,可以进行高效的并行训练。与 Transformer 类似,用于语言建模的 Mamba 模型使用下一个 token 预测任务进行预训练。最近的研究提出了以 Mamba 为语言主干的 MLLM[18][19]。
表1总结了本调查中涵盖的MLLM,其中指出了每个模型所基于的LLM、视觉编码器、用于连接视觉和语言组件的适配器、MLLM是否使用视觉指令调整进行训练,以及主要任务和功能的简短列表。
表1
表格解释如下
在MLLM中,一个关键组件是视觉编码器,它专门用于为LLM提供视觉提取的特征。通常的做法是采用冻结的预训练视觉编码器,同时仅训练一个可学习的接口,该接口将视觉特征与底层LLM连接起来。虽然这通常是使用具有固定宽高比的低分辨率图像来完成的,但一些尝试涉及调整预训练的视觉主干网络以处理不同分辨率和宽高比的图像。
来自不同模态的输入同时存在,强调了需要整合一个能够描绘这些单模态领域内潜在对应关系的模块。这些模块被称为“适配器”,旨在促进视觉和文本领域之间的互操作性。常见的 MLLM 中使用了一系列不同的适配器,从线性层或 MLP 等基本架构到基于 Transformer 的高级方法,例如 Q-Former 模型,以及添加到 LLM 中的条件交叉注意力层。
本文全面概述了多模态大型语言模型(MLLM)的最新发展,首先关注如何使大型语言模型具备多模态能力,然后探讨这些模型所解决的主要任务。基于所提出的分析,在下文中,本文概述了重要的开放性挑战和有前景的未来研究方向,以进一步增强多模态大型语言模型的能力。
多模态检索增强生成。虽然检索增强生成(RAG)是大型语言模型中一项成熟的技术,但其在多模态大型语言模型中的应用仍有待探索。我们认为,需要外部检索知识的视觉问答(VQA)数据集的出现可能促使具有检索增强生成能力的多模态大型语言模型的发展。
幻觉校正。多项研究表明,多模态大型语言模型倾向于表现出较高的幻觉率,尤其是在生成较长的标题时。虽然一些解决方案正在涌现以缓解这个问题,但理解和纠正幻觉的根本原因仍然是一个重要的开放性挑战,值得解决,以允许这些模型在更关键的背景下应用(例如,医学),并保证其准确性和可信度。
防止有害和有偏见的生成。确保大规模模型的安全性和公平性是社区的根本利益。最近的研究表明,在网络爬取数据上训练的模型容易生成不适当和有偏见的内容。尽管最近在减少文本到图像生成模型中的这种现象方面做出了一些努力,但仍需要进一步探索以防止多模态大型语言模型中出现相同的行为。
降低计算负载。如补充材料所示,多模态大型语言模型对计算要求很高。需要有效的策略来降低计算要求,并使多模态大型语言模型的开发更易于访问。可能的方向包括减少模型规模和数据数量方面的训练要求,并优化推理阶段。
2025年10月28日学习笔记
[《The Revolution of Multimodal Large Language Models: A Survey》](https://arxiv.org/pdf/2402.12451)
[1]Jean-Baptiste Alayrac, Jeff Donahue, Pauline Luc, Antoine Miech, Iain Barr, Yana Hasson, Karel Lenc, Arthur Mensch, Katherine Millican, Malcolm Reynolds, et al. 2022. Flamingo: a Visual Language Model for Few-Shot Learning. In NeurIPS.
[2]Haotian Liu, Chunyuan Li, Qingyang Wu, and Yong Jae Lee. 2023e. Visual Instruction Tuning. In NeurIPS.
[3]Hugo Touvron, Thibaut Lavril, Gautier Izacard, Xavier Martinet, Marie-Anne Lachaux, Timothée Lacroix, Baptiste Rozière, Naman Goyal, Eric Hambro, Faisal Azhar, et al. 2023a. LLaMA: Open and Efficient Foundation Language Models. arXiv preprint arXiv:2302.13971.
[4]Rohan Taori, Ishaan Gulrajani, Tianyi Zhang, Yann Dubois, Xuechen Li, Carlos Guestrin, Percy Liang, and Tatsunori B Hashimoto. 2023. Stanford Alpaca: An Instruction-Following LLaMA Model.
[5]Wei-Lin Chiang, Zhuohan Li, Zi Lin, Ying Sheng, Zhanghao Wu, Hao Zhang, Lianmin Zheng, Siyuan Zhuang, Yonghao Zhuang, Joseph E. Gonzalez, Ion Stoica, and Eric P. Xing. 2023. Vicuna: An OpenSource Chatbot Impressing GPT-4 with 90%* ChatGPT Quality.
[6]OpenAI. 2022. Introducing ChatGPT.
[7]Susan Zhang, Stephen Roller, Naman Goyal, Mikel Artetxe, Moya Chen, Shuohui Chen, Christopher Dewan, Mona Diab, Xian Li, Xi Victoria Lin, et al. 2022b. Opt: Open pre-trained transformer language models. arXiv preprint arXiv:2205.01068.
[8]Hongyu Wang, Shuming Ma, Shaohan Huang, Li Dong, Wenhui Wang, Zhiliang Peng, Yu Wu, Payal Bajaj, Saksham Singhal, Alon Benhaim, et al. 2023b. Magneto: A Foundation Transformer. In ICML.
[9]MosaicML. 2023. Introducing MPT-7B: A New Standard for Open-Source, Commercially Usable LLMs.
[10]Hyung Won Chung, Le Hou, Shayne Longpre, Barret Zoph, Yi Tay, William Fedus, Yunxuan Li, Xuezhi Wang, Mostafa Dehghani, Siddhartha Brahma, et al. 2022. Scaling Instruction-Finetuned Language Models. arXiv preprint arXiv:2210.11416.
[11]Linting Xue, Noah Constant, Adam Roberts, Mihir Kale, Rami Al-Rfou, Aditya Siddhant, Aditya Barua, and Colin Raffel. 2020. mT5: A massively multilingual pre-trained text-to-text transformer. arXiv preprint arXiv:2010.11934.
[12]Colin Raffel, Noam Shazeer, Adam Roberts, Katherine Lee, Sharan Narang, Michael Matena, Yanqi Zhou, Wei Li, and Peter J Liu. 2020. Exploring the limits of transfer learning with a unified text-to-text transformer. JMLR, 21(1):5485–5551.
[13]Alec Radford, Jong Wook Kim, Chris Hallacy, Aditya Ramesh, Gabriel Goh, Sandhini Agarwal, Girish Sastry, Amanda Askell, Pamela Mishkin, Jack Clark, et al. 2021. Learning transferable visual models from natural language supervision. In ICML.
[14]Mitchell Wortsman, Gabriel Ilharco, Jong Wook Kim, Mike Li, Simon Kornblith, Rebecca Roelofs, Raphael Gontijo Lopes, Hannaneh Hajishirzi, Ali Farhadi, Hongseok Namkoong, and Ludwig Schmidt. 2022. Robust Fine-Tuning of Zero-Shot Models. In CVPR.
[15]Yuxin Fang, Wen Wang, Binhui Xie, Quan Sun, Ledell Wu, Xinggang Wang, Tiejun Huang, Xinlong Wang, and Yue Cao. 2023. Eva: Exploring the limits of masked visual representation learning at scale. In CVPR.
[16]Kaiming He, Xinlei Chen, Saining Xie, Yanghao Li, Piotr Dollár, and Ross Girshick. 2022. Masked Autoencoders Are Scalable Vision Learners. In CVPR.
[17]Albert Gu and Tri Dao. 2023. Mamba: Linear-Time Sequence Modeling with Selective State Spaces. arXiv preprint arXiv:2312.00752.
[18]Yanyuan Qiao, Zheng Yu, Longteng Guo, Sihan Chen, Zijia Zhao, Mingzhen Sun, Qi Wu, and Jing Liu. 2024. VL-Mamba: Exploring State Space Models for Multimodal Learning. arXiv preprint arXiv:2403.13600.
[19]Han Zhao, Min Zhang, Wei Zhao, Pengxiang Ding, Siteng Huang, and Donglin Wang. 2024. Cobra: Extending Mamba to Multi-Modal Large Language Model for Efficient Inference. arXiv preprint arXiv:2403.14520.
来源:一的万次方