NExT-GPT:万物皆可的多模态大语言模型

B站影视 2025-01-13 21:18 2

摘要:随着生成式人工智能在技术进步中展现出强大的类人语言推理和决策能力,为实现通用人工智能铺垫了道路。世界是多模态的,人类通过多种感官获取互补信息,现在基于文本的大语言模型也获得了对图像、视频和音频等非文本模态的理解和感知能力。新加坡国立大学下一代搜索技术联合研究中

随着生成式人工智能在技术进步中展现出强大的类人语言推理和决策能力,为实现通用人工智能铺垫了道路。世界是多模态的,人类通过多种感官获取互补信息,现在基于文本的大语言模型也获得了对图像、视频和音频等非文本模态的理解和感知能力。新加坡国立大学下一代搜索技术联合研究中心(NExT++ Research Center)通过将预训练编码器与其他模态对齐,探索多模态大语言模型(MM-LLMs)的发展。

一、总体架构

NExT-GPT框架由三个主要阶段组成:多模态编码阶段、LLM理解和推理阶段以及解码阶段。

多模态编码阶段。研究者们采用ImageBind这一现有的模型对不同模态的输入进行编码。这是一个能够处理六种不同的模态的高性能统一编码器。随后,通过一个投影层,不同的编码输入被映射成LLM能够理解的类似语言的表示。

LLM理解和推理阶段。LLM被用作NExT-GPT的核心代理。技术上,研究者采用了开源信息机器人Vicuna(7B-v0)作为LLM开源信息基础。LLM负责接收来自不同模态的信息,并对输入进行语义理解和推理,并在此基础上输出直接的文本响应或其他模态的信号标记,作为指令来指导解码层是否生成多模态内容,如果是肯定的,那就产生相应内容。

多模态生成阶段。一旦接收到LLM发出的多模态信号和指令,基于Transformer的输出投影层便会将这些信号标记转换为多模态解码器能理解的形式(技术上利用了现成的潜在条件扩散模型,如Stable Diffusion用于图像、Zeroscope用于视频),编码信息通过投影层后,被送入相应的条件扩散模型以生成内容。但值得注意的是,在整个系统中,只有约1%的输入输出编码器和解码器投影层参数(与整体巨大容量框架相比)需要在后续学习中更新,其余所有编码器和解码器都保持冻结状态,这也是该多模态大语言模型的一个关键优势。

二、轻量级多模态对齐学习

为了实现不同模态间的流畅语义理解,NExT-GPT的对齐学习只需更新其松耦合系统中的编码端和解码端的两个投影层。

(一)编码端以LLM为中心的多模态对齐

大多数多模态大语言模型使用基于Transformer的编码器生成块级特征,并通过线性层将这些特征映射到文本空间以供LLM理解。但这种方法可能无法完全适应复杂的文本语义,因此研究人员利用可学习的概念词元(concept tokens),通过分组机制将特征聚合成语义概念标记,再输入LLM以优化信息感知。为了实现从图像、音频或视频到文本的生成任务,使用来自现有语料库的“X-caption”对数据训练LLM生成匹配的文本描述,分别是Webvid-2M提供视频,CC3M提供图像,AudioCaps提供音频,以此来训练LLM生成与输入模态相匹配的文本。

(二)解码端指令遵循对齐

在解码阶段,为了与LLM的输出指令对齐,集成外部的预训练条件扩散模型。同时为了避免与每个扩散模型进行全面对齐所带来的巨大计算成本,采用高效的解码端指令遵循对齐方法,并通过设计特殊标记以隐式传递下游扩散模型的指令。LLM将学习生成文本和相应的模态信号标记,当需要生成特定模态内容时,会输出相应标记以激活该模态,否则不输出标记表示不激活该模态。

研究人员发现扩散模型通常仅依赖文本编码器的输出来生成内容,这与LLM中的模态信号标记存在显著差异,导致扩散模型无法准确执行LLM的指令。为解决这一问题,提出两种方法:一是将LLM的模态信号标记作为去噪过程的条件输入,以引导生成合适的图像、视频或音频;二是减少信号标记与扩散模型条件文本之间的差异,加速模型对齐。在训练过程中,所有扩散模型的主干网络(U-Net)保持冻结,以实现轻量级训练。

三、模态切换指令调整

尽管编码和解码端已与LLM对齐,但系统在准确理解和执行用户指令以及生成预期多模态输出方面仍有提升空间。为此,研究人员提出了指令调整方法,通过额外训练来增强LLM的能力。

(一)指令调整

指令调整方法采用LoRA技术对NExT-GPT的部分参数进行微调,以优化LLM对输入文本的理解和多模态内容的生成。此外,还对NExT-GPT的解码端进行了微调,以确保模态信号标记与扩散条件编码器编码的多模态信息表示一致,从而提高与用户互动的准确性和有效性。

(二)指令数据集

对于NExT-GPT的指令调整,研究人员首先考虑了现有的‘Text’→‘Text+X’数据集,这些数据集中的‘X’代表图像、视频、音频等模态,如LLaVA-150K和VideoChat。但这些数据集仅用于输出LLMs的文本响应,不满足“万物皆可”的场景需求,该场景要求生成包括文本在内的多模态内容(‘Text+X’)。因此,研究人员构建了一个新的‘Text’→‘Text+X’数据集,即文本到多模态(T2M)数据集,研究人员使用GPT-4生成多样化的文本指令,与字幕结合,形成了新的数据集。

MosIT数据集。研究人员认识到制定全面覆盖期望目标行为的高质量指令并非易事,现有的IT数据集并不足以满足“万物皆可”(Any to any)的多模态大语言模型场景需求。在人机交互中,用户和LLM需要在输入和输出中处理多样化且不断变化的模态,并且文章允许进行多轮对话以处理和理解复杂的用户意图。然而,现有数据集在模态变化和对话长度上都有所不足,无法充分模拟现实世界中的复杂场景。

为推动多模态大语言模型(MM-LLM)的发展,研究人员提出了模态切换指令调整(MosIT)方法,支持跨模态理解和复杂内容生成。结合MosIT,精心构建了高质量数据集,包含广泛的多模态输入输出,以训练MM-LLM处理多样化用户交互并准确响应。并设计了“人类”与“机器”间的模板对话,引导GPT-4在100多个主题下生成对话,要求交互多样化,涵盖感知、推理、建议等,并包含深入推理细节。对话中涉及的多模态内容,如图像、音频、视频,均从外部资源如YouTube及AIGC工具如Stable-XL和Midjourney中精选。

四、实验量化

在实验中,研究人员旨在量化NExT-GPT在一系列需要感知和生成多种模态的下游任务中的表现。

(一)实验结果说明

多模态感知。研究人员评估了NExT-GPT在图像、视频和音频理解上的性能,并在多个基准测试中进行比较。NExT-GPT在图像描述和问答任务中表现出色,显著优于基线水平,并在MMBench和SEED-Bench等评估基准上保持了竞争力。此外,NExT-GPT在视频和音频理解任务上也展现了优异的能力,相较于CoDi,NExT-GPT得益于其LLM的直接文本生成能力,从而获得了更优的结果。

多模态生成。研究人员比较了NExT-GPT与一些顶尖系统在基于文本合成图像、视频或音频的质量。NExT-GPT展现出了卓越的性能,尤其是在支持多样化模态方面,与GILL、Emu和UIO-2XXL等以LLM为中心的模型相比更具优势。NExT-GPT在各个模态的生成上均保持了优异表现,包括零样本场景。与非LLM中心的模型相比,NExT-GPT在生成质量上也有显著提升。

(二)实验主要要素分析

信号标记数量的影响。研究人员试验了NExT-GPT在使用不同数量的模态特定信号标记时的表现。实验发现,不同模态对信号标记的需求各异,视频因内容生成复杂度最高而需要最多标记,而图像和音频则分别需4个和8个标记即可达到满意效果。信号标记的最优数量受训练数据量和所选扩散模型的影响,更大的数据集和更强大的模型可能从增加信号标记数量中受益。

分组机制的影响。为了进一步说明使用分组机制对齐视觉特征与LLM的有效性,研究人员对不同的投影架构设计进行了实验,实验包括了“带线性层”设计。该设计移除了分组模块,直接将输出通过线性层映射到语言嵌入空间;以及“带Q-former+线性层”设计,用Q-former替换了分组机制。所有变体均按照原始设计进行训练。结果显示,简单线性方法导致模型在图像、视频和音频问答任务中的感知能力显著下降,而加入Q-former则适度提升了感知能力,因为其轻微的视觉特征分组能力与复杂文本标记语义有效对齐。最终,NExT-GPT的分组机制在性能上表现最佳。

定性分析。为了展示NExT-GPT在开发类似人类的对话代理方面的有效性和潜力,测试了系统在各种模态的任何组合中理解和推理内容的能力,例如在准备历史课的演示时,NExT-GPT在生成相关提示和可视化方面表现出灵活性。

五、结论

研究人员提出了一个“万物皆可”的多模态大语言模型NExT-GPT设计理念,它能够处理任意组合的文本、图像、视频和音频输入输出。NExT-GPT通过连接LLM、多模态适配器和扩散解码器,并且通过仅微调1%的参数,实现低成本训练和扩展。此外,还引入模态切换指令调整(MosIT)和高质量MosIT数据集,增强NExT-GPT的跨模态理解和内容生成能力,展示了构建更接近人类交流方式的人工智能系统的潜力。

转自丨启元洞见

研究所简介

国际技术经济研究所(IITE)成立于1985年11月,是隶属于国务院发展研究中心的非营利性研究机构,主要职能是研究我国经济、科技社会发展中的重大政策性、战略性、前瞻性问题,跟踪和分析世界科技、经济发展态势,为中央和有关部委提供决策咨询服务。“全球技术地图”为国际技术经济研究所官方微信账号,致力于向公众传递前沿技术资讯和科技创新洞见。

地址:北京市海淀区小南庄20号楼A座

_er

来源:全球技术地图

相关推荐