NExT-GPT:多模态大语言模型,解锁万物交互新境界

B站影视 2025-01-14 20:45 3

摘要:随着生成式人工智能技术的飞速发展,其展现出的卓越类人语言推理与决策能力,为通向通用人工智能的道路奠定了坚实基础。鉴于世界的本质是多模态的,人类依赖于多种感官来综合获取并理解信息,现今,基于文本的大语言模型亦在逐步拓展其边界,开始展现出对图像、视频及音频等非文本

随着生成式人工智能技术的飞速发展,其展现出的卓越类人语言推理与决策能力,为通向通用人工智能的道路奠定了坚实基础。鉴于世界的本质是多模态的,人类依赖于多种感官来综合获取并理解信息,现今,基于文本的大语言模型亦在逐步拓展其边界,开始展现出对图像、视频及音频等非文本模态的理解与感知能力。在此背景下,新加坡国立大学的下一代搜索技术联合研究中心(NExT++ Research Center)正积极投身于多模态大语言模型(MM-LLMs)的前沿探索,通过将预训练的编码器与其他多种模态信息进行高效对齐与融合,力求推动这一领域的突破性进展。

一、系统总体架构设计

NExT-GPT框架精妙地融合了三个核心阶段:首先是多模态信息的精密编码阶段,其次是LLM的深度理解与推理阶段,最后是灵活多变的多模态内容生成阶段。

在多模态信息的精密编码阶段,研究者们巧妙地运用了ImageBind这一先进的模型,它能够高效地处理六种不同的模态信息,实现信息的统一编码。这一步骤确保了信息的准确性和一致性,为后续的处理奠定了坚实的基础。随后,通过一个精心设计的投影层,这些多样化的编码输入被巧妙地转化为LLM能够轻松解读的类语言表示,为信息的深度理解和推理做好了准备。

进入LLM的深度理解与推理阶段,我们选用了开源信息机器人Vicuna(7B-v0)作为核心代理,其强大的语义理解和推理能力为NExT-GPT框架注入了强大的动力。LLM在这一阶段扮演着至关重要的角色,它负责接收来自多模态编码器的丰富信息,并对其进行深入的语义分析和逻辑推理。基于这些信息,LLM能够输出直接的文本响应,或生成其他模态的信号标记,这些标记作为明确的指令,指导后续的多模态内容生成。

在灵活多变的多模态内容生成阶段,一旦接收到LLM发出的多模态信号和指令,基于Transformer的输出投影层便迅速响应,将这些信号标记转换为多模态解码器能够识别的形式。我们巧妙地利用了现成的潜在条件扩散模型,如Stable Diffusion(擅长图像生成)和Zeroscope(擅长视频生成),这些模型在各自的领域内展现出了卓越的性能。在编码信息通过投影层后,它们被精准地送入相应的条件扩散模型,以生成高质量、多样化的多模态内容。

此外,NExT-GPT框架在参数更新方面展现出了极高的效率。在整个系统中,仅有约1%的输入输出编码器和解码器投影层参数需要在后续的学习中进行更新,而其余的编码器和解码器则保持冻结状态。这一策略不仅大幅降低了计算成本,还确保了框架的稳定性和可扩展性,为NExT-GPT框架在实际应用中的高效运行提供了有力保障。

值得一提的是,NExT-GPT框架的每一个细节都经过了精心的设计和优化,以确保其能够高效地处理复杂的多模态信息,并为用户提供更加智能、便捷和高效的服务。我们相信,随着技术的不断进步和应用的不断深化,NExT-GPT框架将在未来的人工智能领域发挥更加重要的作用。

二、高效轻量级多模态对齐与学习策略

在追求不同模态间无缝语义理解的征途中,NExT-GPT框架的对齐学习策略展现出了其独特的智慧与高效。这一策略的核心在于,它仅需更新松耦合系统中的两个关键投影层——编码端与解码端,便能在多模态信息的海洋中架起理解的桥梁。

(一)编码端:以LLM为基石的多模态深度对齐

在多模态信息的编码端,NExT-GPT并未止步于传统的Transformer编码器生成块级特征的方式。相反,它巧妙地利用了可学习的概念词元(concept tokens),这些词元如同智慧的钥匙,能够解锁复杂文本语义的深层秘密。通过一种创新的分组机制,这些特征被精心聚合成语义概念标记,随后被输入到LLM中,以优化信息的感知与理解。

为了实现从图像、音频或视频等非文本模态到文本的生成任务,NExT-GPT采用了来自丰富语料库的“X-caption”数据对LLM进行训练。这些数据涵盖了Webvid-2M提供的视频、CC3M提供的图像以及AudioCaps提供的音频,它们共同构成了LLM学习生成与输入模态相匹配文本描述的坚实基础。在这一过程中,LLM不仅学会了如何捕捉和解读各种模态中的关键信息,还学会了如何将这些信息转化为生动、准确的文本描述。

(二)解码端:指令遵循的高效对齐策略

在解码阶段,NExT-GPT同样展现出了其独特的智慧。为了与LLM的输出指令保持高度一致,它集成了外部的预训练条件扩散模型。然而,与每个扩散模型进行全面对齐所带来的巨大计算成本是不容忽视的。因此,NExT-GPT采用了一种高效的解码端指令遵循对齐方法,通过设计特殊标记来隐式传递下游扩散模型的指令。

LLM在这一过程中扮演着至关重要的角色。它学会了生成文本和相应的模态信号标记,这些标记如同指挥棒,指引着扩散模型生成特定模态的内容。当需要生成图像、视频或音频等特定模态的内容时,LLM会输出相应的标记以激活该模态;而当不需要生成特定模态内容时,则不输出标记,表示该模态处于未激活状态。

然而,研究人员在实践中发现,扩散模型通常仅依赖文本编码器的输出来生成内容,这与LLM中的模态信号标记存在显著差异。这种差异导致扩散模型无法准确执行LLM的指令,从而影响了生成内容的质量和准确性。为了解决这一问题,NExT-GPT提出了两种创新的方法:

一是将LLM的模态信号标记作为去噪过程的条件输入。这一方法通过引入额外的信息来引导扩散模型生成合适的图像、视频或音频内容。在去噪过程中,模态信号标记作为重要的参考信息,帮助扩散模型更好地理解LLM的指令意图,并据此生成与指令相匹配的内容。

二是减少信号标记与扩散模型条件文本之间的差异。这一方法通过优化LLM的输出和扩散模型的输入之间的匹配程度,加速模型之间的对齐过程。通过调整LLM的输出格式和扩散模型的输入要求,使得两者之间的信息能够更加顺畅地传递和转换,从而提高了生成内容的一致性和准确性。

在训练过程中,NExT-GPT还采取了一项重要的策略:保持所有扩散模型的主干网络(U-Net)冻结状态。这一策略不仅降低了训练成本和时间成本,还确保了模型在轻量级训练过程中的稳定性和可靠性。通过冻结主干网络,NExT-GPT能够专注于优化投影层和指令对齐策略,从而在不牺牲性能的前提下实现更加高效的多模态对齐与学习。

此外,NExT-GPT框架的每一个细节都经过了精心的设计和优化。从编码端的语义概念标记生成到解码端的指令遵循对齐策略,再到训练过程中的轻量级优化策略,每一个环节都体现了研究者们对技术创新的执着追求和对用户体验的深切关怀。

展望未来,随着技术的不断进步和应用的不断深化,NExT-GPT框架将在多模态信息处理和生成领域发挥更加重要的作用。它不仅能够为用户提供更加智能、便捷和高效的服务体验,还将为人工智能领域的发展注入新的活力和动力。我们相信,在不久的将来,NExT-GPT将成为多模态大语言模型领域的佼佼者,引领着人工智能技术向更加广阔和深远的未来迈进。

三、模态切换与指令优化策略

尽管编码和解码端已与LLM(大型语言模型)实现了初步的对齐,但系统在准确捕捉用户指令精髓并生成符合预期的多模态输出方面,仍有广阔的优化空间。为了填补这一空白,研究人员匠心独运,提出了指令调整方法,旨在通过额外的精细化训练,进一步锤炼LLM的“智慧”。

(一)指令调整:精准触达用户意图

指令调整方法巧妙地运用了LoRA(Low-Rank Adaptation)技术,对NExT-GPT的部分核心参数进行了精细微调。这一举措不仅优化了LLM对输入文本的理解能力,还显著提升了其生成多模态内容的精准度。同时,为了确保模态信号标记与扩散条件编码器所编码的多模态信息表示高度一致,研究人员还对NExT-GPT的解码端进行了细致入微的调整。这一系列举措,无疑为提升用户互动的准确性和有效性注入了强劲动力。

(二)指令数据集:构建多模态交互的基石

在指令调整的过程中,数据集的构建扮演着举足轻重的角色。研究人员首先审视了现有的‘Text’→‘Text+X’数据集,其中‘X’涵盖了图像、视频、音频等多种模态,如LLaVA-150K和VideoChat等。然而,这些数据集主要聚焦于LLM的文本响应输出,难以满足“万物皆可生成”的多元化场景需求。为此,研究人员匠心打造了一个新的‘Text’→‘Text+X’数据集——文本到多模态(T2M)数据集。他们利用GPT-4的强大生成能力,创造了丰富多样的文本指令,并与精心挑选的字幕相结合,共同构成了这一创新数据集。

此外,研究人员还深刻意识到,制定全面覆盖期望目标行为的高质量指令绝非易事。现有的IT数据集在模态变化和对话长度等方面存在明显不足,难以充分模拟现实世界中的复杂交互场景。为了推动多模态大语言模型(MM-LLM)的蓬勃发展,研究人员提出了模态切换指令调整(MosIT)这一革命性方法。该方法不仅支持跨模态理解,还能轻松应对复杂内容的生成挑战。结合MosIT方法,研究人员精心构建了一个高质量数据集,其中包含了广泛且多样的多模态输入输出对,为训练MM-LLM处理多样化用户交互并准确响应提供了坚实基础。

在数据集构建过程中,研究人员还巧妙地设计了“人类”与“机器”间的模板对话,引导GPT-4在100多个丰富主题下生成生动有趣的对话内容。这些对话不仅要求交互形式多样化,还涵盖了感知、推理、建议等多个维度,并深入挖掘了推理细节。对话中涉及的多模态内容,如引人入胜的图像、生动逼真的音频、精彩纷呈的视频等,均是从YouTube等外部资源以及Stable-XL、Midjourney等AIGC(人工智能生成内容)工具中精心挑选而来。这一系列举措不仅丰富了数据集的多样性,更为MM-LLM的训练提供了宝贵的“养料”,助力其在未来的人工智能领域中绽放更加璀璨的光芒。

四、实验评估与量化分析

在实验环节,研究人员致力于量化评估NExT-GPT在涵盖多种模态感知与生成的下游任务中的卓越表现。

(一)实验结果深度解读

多模态感知能力的卓越展现:NExT-GPT在图像、视频及音频理解方面的性能得到了全面评估,并在多个基准测试中脱颖而出。在图像描述与问答任务上,NExT-GPT的表现显著超越了基线水平,同时在MMBench和SEED-Bench等权威评估基准中保持了强劲的竞争力。此外,在视频与音频理解任务上,NExT-GPT同样展现出了非凡的能力,相较于CoDi等竞品,其凭借LLM的直接文本生成优势,取得了更为出色的成绩。

多模态生成能力的显著优势:在与顶尖系统在基于文本合成图像、视频或音频的质量对比中,NExT-GPT展现出了无可比拟的性能。特别是在支持多样化模态方面,NExT-GPT相较于GILL、Emu和UIO-2XXL等以LLM为核心的模型,展现出了更为突出的优势。无论是在零样本场景还是其他模态的生成上,NExT-GPT均保持了卓越的表现。与非LLM中心的模型相比,NExT-GPT在生成质量上同样实现了显著提升。

(二)实验关键要素深入剖析

信号标记数量的微妙影响:研究人员深入探究了NExT-GPT在使用不同数量模态特定信号标记时的性能表现。实验结果显示,不同模态对信号标记的需求存在显著差异。由于视频内容生成的复杂性最高,因此需要最多的标记;而图像和音频则分别仅需4个和8个标记即可达到理想效果。信号标记的最优数量受到训练数据量和所选扩散模型的共同影响,更大的数据集和更强大的模型可能从增加信号标记数量中获得更多收益。

分组机制的有效性验证:为了进一步阐明分组机制在视觉特征与LLM对齐中的有效性,研究人员对不同的投影架构设计进行了详尽的实验。这些设计包括移除分组模块的“带线性层”设计,以及用Q-former替换分组机制的“带Q-former+线性层”设计。所有变体均按照原始设计进行了训练。实验结果表明,简单的线性方法导致模型在图像、视频和音频问答任务中的感知能力大幅下降;而加入Q-former则在一定程度上提升了感知能力,因其具备轻微的视觉特征分组能力,能够与复杂的文本标记语义实现有效对齐。最终,NExT-GPT的分组机制在性能上展现出了最佳表现。

定性分析的生动展示:为了充分展现NExT-GPT在开发类似人类对话代理方面的有效性和潜力,研究人员测试了系统在各种模态组合中理解和推理内容的能力。例如,在准备历史课演示时,NExT-GPT在生成相关提示和可视化方面展现出了极高的灵活性,进一步证明了其强大的多模态处理能力。

五、结论

研究人员开创性地提出了一个旨在实现“万物皆可”的多模态大语言模型——NExT-GPT的设计理念。该模型能够轻松驾驭任意组合的文本、图像、视频以及音频等输入输出形式,展现出极高的灵活性和适应性。通过巧妙地将大型语言模型(LLM)、多模态适配器以及扩散解码器进行有机融合,NExT-GPT仅需对1%的参数进行微调,便实现了低成本的训练与扩展,极大地提高了模型的效率与实用性。

此外,为了进一步增强NExT-GPT的跨模态理解和内容生成能力,研究人员还引入了模态切换指令调整(MosIT)方法,并精心构建了高质量的MosIT数据集。这一举措不仅显著提升了NExT-GPT在复杂场景下的交互表现,更展示了其构建更加贴近人类交流方式的人工智能系统的巨大潜力。NExT-GPT的成功实践,无疑为人工智能领域的发展注入了新的活力与希望。

华远系统是致力于人工智能(AI算法以及流媒体技术),信息软件技术,新能源、物联网等领域的集成商,在智慧社区,智慧园区,智慧停车,充电桩(储能充电站/光储充)及充电桩软件管理平台,储能系统集成,车联网有整套解决方案以及成功的项目案例。

来源:华远系统

相关推荐