Meta与马里兰大学团队：如何实现大模型零样本视觉能力传递

摘要：这项由马里兰大学和Meta公司联合完成的突破性研究发表于2025年5月28日的arXiv预印本平台（arXiv:2505.22664v1 [cs.CV]），论文题为《通过LLM替身实现零样本视觉编码器嫁接》(Zero-Shot Vision Encoder G

这项由马里兰大学和Meta公司联合完成的突破性研究发表于2025年5月28日的arXiv预印本平台（arXiv:2505.22664v1 [cs.CV]），论文题为《通过LLM替身实现零样本视觉编码器嫁接》(Zero-Shot Vision Encoder Grafting via LLM Surrogates)。该研究由Kaiyu Yue、Vasu Singla、Menglin Jia等人共同完成，源代码可通过GitHub链接 https://github.com/facebookresearch/zero 获取。

想象一下，你有一个小巧的智能助手和一个强大但体型庞大的专家系统。小助手学会了看图识物的能力，但专家系统虽然知识渊博却"看不见"图像。现在，如果能把小助手的"眼睛"直接安装到专家系统上，让它立即获得视觉能力，这不就是一个完美的组合吗？这正是这项研究的核心思想。

视觉语言模型（VLM）通常由两部分组成：一个规模适中的视觉编码器（相当于"眼睛"）和一个大型语言模型（LLM，相当于"大脑"）。传统上，训练这样的组合需要耗费大量计算资源，特别是当使用像Llama-70B这样的超大模型作为语言部分时。研究团队提出了一个聪明的解决方案：先用一个小型"替身模型"（surrogate model）训练视觉编码器，然后直接将其移植到大型目标LLM上——这个过程被称为"零样本嫁接"（zero-shot grafting）。

令人惊讶的是，这种方法不仅可行，而且效果出色。经过"替身"训练的视觉编码器直接插入到大型LLM中时，不仅性能超过了与替身模型配对的表现，在某些基准测试上甚至与直接使用目标LLM进行全面训练的结果相当。更重要的是，这种方法将使用Llama-70B作为解码器时的VLM训练成本减少了约45%。

论文第一部分详细介绍了如何构建有效的替身模型。研究团队通过分析LLM内部预测轨迹的动态，发现模型处理信息时存在两个明显不同的阶段，中间有一个清晰的转折点。在此基础上，他们构建了小型替身模型，保留目标LLM早期阶段的层（负责特征提取），压缩后期阶段的层。这样创建的替身模型与原始的大型模型共享相同的嵌入空间和表示语言，使视觉编码器能够无缝迁移。

第二部分展示了这种方法应用于Llama-70B等超大模型的惊人效果。研究显示，使用替身训练的编码器不仅可以直接"零样本嫁接"到目标LLM上，还能在后续微调过程中显著加速收敛。实验证明，这种方法能使Llama-70B的训练成本降低近一半，同时保持甚至提升性能。

对于人工智能和机器学习领域来说，这项研究意义重大。它不仅提供了一种更高效训练大型视觉语言模型的方法，还揭示了语言模型内部工作机制的新见解。更重要的是，这种方法使得构建强大的多模态AI系统变得更加经济实惠和环保，为下一代人工智能技术的普及奠定了基础。

一、构建替身模型：揭秘大语言模型的内部工作机制

想象一下，如果我们把大语言模型比作一个复杂的汽车发动机，研究团队首先做的就是观察这个发动机的工作过程，找出哪些部件负责初步处理燃料（输入信息），哪些部件负责产生最终动力（输出答案）。这种观察帮助他们理解了模型的内部工作机制，为后续的"零样本嫁接"奠定了基础。

研究团队首先分析了大语言模型（LLM）在处理信息时的内部变化过程。他们喂给Llama-3B、8B、70B以及Gemma-2B等模型300个随机样本，然后跟踪模型各层在处理这些输入时的中间状态变化。就像观察一个思考问题的人，从接收信息到形成答案的整个思维过程。

通过计算每一层的预测与最终输出预测之间的差异（用KL散度衡量），他们发现了一个有趣的现象：在模型处理信息的过程中，存在一个明显的转折点。在这个点之前，不同输入的处理轨迹各不相同，差异很大；而在这个点之后，各种处理轨迹迅速汇聚，并平稳地向最终答案靠拢。

这就像人类思考问题时的两个阶段：先是接收信息并形成初步理解（各人的理解可能差异很大），然后逐渐整合这些理解形成最终答案（逐渐趋于一致）。研究人员将这两个阶段分别称为"早期阶段"和"后期阶段"，而中间的转折点则因模型大小不同而有所差异。例如，Llama-8B的转折点在第17层左右，而Llama-70B则在第40层附近。

基于这一发现，研究团队提出了构建替身模型的方法：保留原始大型模型中负责早期阶段处理的层，同时用一个"转换器"（translator）替代后期阶段的多层处理。这就像保留汽车发动机中负责初步燃料处理的部件，但用一个简化的机制替代后续的动力传输系统。

为了验证这一想法，研究团队使用Llama-3B进行了初步实验。他们创建了两个替身模型：一个替换了早期阶段的层（第1到11层），另一个替换了后期阶段的层（第16到26层）。然后，他们在这两个模型上训练视觉编码器，并测试它们的性能。

结果令人惊讶：替换后期阶段层的模型表现远好于替换早期阶段层的模型。更重要的是，在替换后期阶段层的模型上训练的视觉编码器可以直接"嫁接"到完整的Llama-3B上使用，而且性能甚至比在原始模型上还好。这一发现证实了早期阶段的层对于编码器的可迁移性至关重要。

进一步的实验证明，保留转折点之前的所有层是最佳选择。例如，对于Llama-8B，保留前17层（正好是转折点）的替身模型训练出的编码器具有最强的零样本嫁接能力，可以直接插入到完整的Llama-8B中使用，且性能优异。

通过这些分析，研究团队总结出了构建有效替身模型的三个关键发现： 1. 早期阶段在编码器可迁移性方面扮演着关键角色 2. 保留早期阶段的原始参数对维持编码器的零样本嫁接能力至关重要 3. 转折点是移除后期层和插入转换器的理想位置

基于这些发现，研究团队为不同大小的模型定义了对应的替身模型：Llama-3B的替身模型T(16,26)保留前16层；Llama-8B的替身模型T(17,30)保留前17层；而Llama-70B的替身模型T(40,78)则保留前40层。这些替身模型通过保留早期阶段的层并用转换器替换后期阶段的层，创建了一个可以高效训练视觉编码器的轻量级替代品。

二、扩展到超大模型：从实验室到实际应用

将理论成功扩展到实际应用场景，就像将实验室里的小型原型发展为工业级产品。研究团队成功地将他们的方法应用到了Llama-70B这样的超大模型上，证明了这种方法不仅在小规模上可行，在实际应用中也能带来显著效益。

基于之前的分析，研究团队为Llama-70B构建了一个37B参数的替身模型T(40,78)，保留了前40层（转折点位置），并用一个转换器替换了第41至78层。尽管这个替身模型仍然相当大（37B参数），但比原始的70B模型小了近一半，大大降低了训练成本。

在这个替身模型上训练的视觉编码器展现出了惊人的零样本嫁接能力。当直接插入到完整的Llama-70B中时，它不仅能正常工作，而且在多个视觉理解基准测试上的表现甚至超过了使用完整Llama-70B训练的编码器。例如，在MME、POPE和SEED-Bench等测试中，零样本嫁接的模型表现明显优于基线模型。

这种表现证明，替身训练的编码器能够有效地"触发"目标LLM执行复杂的视觉理解任务，而无需额外训练。在实际测试中，这种嫁接模型能够执行各种复杂任务，从简单的图像描述到回答关于图像内容的复杂问题，甚至能识别图像中的文本（OCR任务）。

除了零样本嫁接能力外，替身训练的编码器还能显著加速与目标LLM的完整训练过程。实验表明，使用替身训练的编码器作为起点，只需使用10%的训练数据就能达到基线方法使用100%数据的性能水平。这意味着，即使在需要进一步微调的场景中，替身训练方法也能大大减少计算资源的消耗。

具体来说，研究团队比较了三种训练方法的成本：基线方法（直接使用Llama-70B训练）、LoRA方法（一种参数高效的微调技术）和他们提出的替身训练方法。在使用20%训练数据的情况下，替身训练方法将总训练时间从34.79小时减少到19.17小时，降低了约45%。这种节省主要来自于解码器训练阶段的成本降低，从27.88小时减少到5.56小时。

为什么替身训练的编码器能够如此高效地加速训练？研究人员解释说，这是因为这些编码器已经与LLM的嵌入空间对齐，它们生成的图像特征已经以LLM能够理解的"语言"表达。这就像给一个外语学习者提供了一个已经部分翻译好的文本，大大减少了从零开始学习的难度。

值得注意的是，使用替身训练的方法不仅减少了训练成本，还在某些方面提升了模型性能。与基线方法相比，这种方法在语言理解能力上表现更好，能够更好地保持模型在纯文本任务上的能力。这是因为替身训练过程中的轻微微调不会导致模型表示空间的大幅偏移，从而保留了原始语言能力。

总的来说，研究团队成功地将他们的方法应用到了实际场景中，证明了替身训练方法不仅在理论上有效，而且能在实际应用中带来显著的成本节约和性能提升。这一成功为大规模视觉语言模型的高效训练开辟了新路径，使得构建更强大、更经济的多模态AI系统成为可能。

三、研究方法与相关工作：站在巨人的肩膀上创新

研究团队的工作并非凭空而来，而是建立在对大语言模型内部机制深入理解的基础上。就像医生需要了解人体内部结构才能进行手术一样，研究人员通过分析大语言模型的内部工作机制，找到了一种巧妙的方法来提高训练效率。

大语言模型解释性研究是当前机器学习领域的重要课题。以往的研究主要使用线性分类器（探针）来理解神经网络中间层的动态特性。例如，有研究直接使用输出嵌入矩阵作为探针来对层间表示进行分类，展示输入标记如何从当前位置转移到下一个位置。另一项名为"Tuned Lens"的工作则扩展了这一想法，使用可训练的探针使其适用于现代大语言模型。

还有研究将Transformer层概念化为"画家"，它们迭代地完善表示，并暗示中间层共享相同的表示。与这些工作不同，本研究团队识别出了大语言模型中两个明显不同的转换阶段，并以此为基础构建了替身模型。

中间层共享表示的特性暗示了冗余的存在。一些研究发现，一些中间层可以在不显著降低性能的情况下被移除。值得注意的是，有研究表明深层不是必需的，可以被移除。这与本研究团队构建的替身模型类似，都替换了后期阶段的层。但本研究的方法在如何识别转折点和目标上有所不同。不同于剪枝，剪枝旨在移除层同时保持性能，本研究关注的是替身模型对编码器可迁移性的效率。虽然替身模型的性能一致低于目标LLM，但它们在生产用于视觉语言模型的高效编码器方面发挥了不同的作用。

本研究中，替身训练的编码器可以直接促使目标LLM生成预期的响应，无需任何微调。这种零样本嫁接能力与引导大语言模型的概念相关，引导是微调大语言模型的一种轻量级替代方案。以往的研究表明，语言模型可以在不进行广泛微调的情况下被引导执行特定任务。同样，在本研究中，来自替身训练编码器的图像特征充当引导标记，使目标LLM能够解释视觉内容并回答各种复杂问题。

这种能力为进一步的解码器微调提供了一个良好的起点，有助于缓解视觉语言模型昂贵的训练成本。随着解码器规模从相对较小的模型（3B，8B）扩展到更大的模型，如70B、110B，训练成本急剧上升。此外，增加高分辨率输入的图像标记数量进一步增加了计算负担。

LoRA（低秩适应）技术可以应用于训练视觉语言模型。虽然LoRA提高了效率，但在使用小秩（如8）和alpha（如32）应用于查询和键解码器层时，特别是在巨型大语言模型中，其性能不如完全微调。缩小这一差距需要将LoRA应用于整个Transformer层，使用大秩和alpha（如秩128，alpha 256）。然后LoRA的时间与完全解码器微调差不多。这一限制可能解释了为什么当前的视觉语言模型仍然依赖于完全解码器微调。与本研究的替身训练方法不同，LoRA不会加速收敛。

此外，使用小模型训练编码器然后将其应用于更大的解码器的想法在之前的研究中有所描述。然而，这项工作并非直接相关，因为它采用了渐进式多阶段训练策略来扩大模型规模，并完善从粗到细的图像处理。关于该方法如何降低成本没有提供进一步的细节，使其不清楚。相比之下，本研究提供了一个定义明确的框架，用于构建专门为任何目标LLM量身定制的高效替身模型。此外，研究团队将替身训练的编码器直接插入到目标LLM中，无需任何微调就将它们转变为能够执行复杂视觉理解任务的视觉语言模型。此外，使用替身训练的编码器，解码器只需要少量的全尺度微调步骤就能达到期望的性能。

综上所述，本研究虽然借鉴了以往的一些思路和方法，但提出了全新的视角和解决方案。通过识别大语言模型中的转折点，构建有效的替身模型，并利用零样本嫁接技术，研究团队创造了一种高效训练视觉语言模型的新方法，为未来的研究和应用开辟了新路径。

四、结论与未来展望：开启AI训练的新时代

回顾整个研究旅程，我们可以看到这项工作不仅解决了当前视觉语言模型训练中的实际问题，还为我们理解大语言模型的内部机制提供了新的视角。就像一位探险家不仅找到了通往宝藏的捷径，还在路上发现了全新的风景。

归根结底，这项研究向我们展示了视觉编码器可以通过替身模型高效训练，并成功迁移到目标大语言模型中。研究团队证明，通过分析大语言模型的内部预测轨迹，可以识别出关键的转折点，从而构建既保留早期阶段层又压缩后期阶段层的有效替身模型。这些替身模型虽然规模较小，但能训练出与原始大模型共享相同嵌入空间的视觉编码器。

这种方法带来了两个主要优势：首先，替身训练的编码器具有强大的零样本嫁接能力，可以直接插入到目标大语言模型中使用，无需额外训练；其次，这些编码器可以大大加速与目标大语言模型的全面训练过程，减少约45%的训练成本。这意味着我们可以更经济、更环保地构建强大的视觉语言模型。

值得注意的是，研究团队提出的替身模型方法并不限于视觉编码器。正如他们在结论中所指出的，这种方法的主要限制在于需要精心设计的替身模型，理想情况下应该尽可能小。虽然他们的层删减策略原则上适用于任何大语言模型，但结果模型仍然是目标大语言模型大小的一半左右，例如，Llama-70B的替身模型有37B参数。这凸显了替身模型的实用价值，同时也强调了需要更高效、更好压缩的创建方法。

对于人工智能研究和应用的未来，这项工作意义重大。随着模型规模不断增长，训练成本和环境影响也随之增加，高效训练方法变得越来越重要。这项研究提供的方法可能成为未来大规模多模态AI系统标准训练流程的一部分，使更多研究者和开发者能够负担得起大型模型的训练成本。

此外，这项研究也为我们理解大语言模型的内部工作机制提供了宝贵见解。通过识别早期和后期处理阶段的不同角色，我们不仅找到了提高训练效率的方法，还可能为未来的模型设计和优化提供新的思路。

对于普通人来说，这项研究的意义在于它可能加速更强大、更实用的AI应用的发展。随着训练成本的降低，我们可能会看到更多创新的视觉语言模型应用于日常生活的各个方面，从辅助视觉障碍人士到增强教育工具，再到改进自动驾驶系统等。

最后，这项研究也提醒我们，有时候解决复杂问题的关键不在于简单地增加计算资源，而在于更深入地理解问题本身并寻找巧妙的解决方案。正如研究团队所展示的，通过对大语言模型内部机制的分析，他们找到了一种既保持性能又显著降低成本的方法。

未来的研究可能会探索更高效的替身模型构建方法，将这种方法应用于其他模态的编码器，或者进一步优化零样本嫁接技术。无论如何，这项工作已经为我们开辟了一条通往更高效、更环保的AI训练道路，值得我们期待它带来的长远影响。

来源：至顶网一点号

标签：模型 meta llm 视觉马里兰大学

本文地址：http://news.43b.com.cn/a/461867.html

免责声明：本站系转载，并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题，请在30日内与本站联系，我们将在第一时间删除内容!

相关推荐