一个高效且灵活的系统借助 LoRA LMM 推动视觉应用的发展

B站影视 2024-12-09 06:43 12

摘要:大型多模态模型(LMMs)在各类复杂视觉任务中成果斐然,其得益于从大型语言模型(LMMs)承袭而来的强大语言与推理能力。低秩自适应(LoRA)为将外部知识融入 LMMs 提供了极具前景的途径,弥补了其在特定领域任务方面的短板。然而,现有的 LoRA 模型服务计

《V-LoRA: An Efficient and Flexible System Boosts Vision Applications with LoRA LMM》

地址:https://arxiv.org/pdf/2411.00915

大型多模态模型(LMMs)在各类复杂视觉任务中成果斐然,其得益于从大型语言模型(LMMs)承袭而来的强大语言与推理能力。低秩自适应(LoRA)为将外部知识融入 LMMs 提供了极具前景的途径,弥补了其在特定领域任务方面的短板。然而,现有的 LoRA 模型服务计算开销过大,致使延迟极高。本文中,我们给出了一种端到端的解决方案,借由 LoRA LMMs 助力多样的视觉任务并丰富视觉应用。

我们的系统 VaLoRA 能够实现精准高效的视觉任务,具体通过:1)精度感知的 LoRA 适配器生成方式,生成富含特定领域知识的 LoRA 适配器,以满足应用的特定精度需求;2)自适应分块的 LoRA 适配器批处理操作符,能高效计算并发的异构 LoRA 适配器;3)灵活的 LoRA 适配器编排机制,对应用请求和 LoRA 适配器进行管理,以达成最低的平均响应延迟。我们在三个 LMMs 上的五个热门视觉任务中对 VaLoRA 进行了原型开发。实验结果显示,相较于原始 LMMs,VaLoRA 的精度提升了 24 - 62%,与前沿的 LoRA 模型服务系统相比,延迟降低了 20 - 89%。

研究问题: 这篇文章旨在解决如何利用LoRA LMM来丰富视觉应用并满足其性能要求的问题。具体来说,现有的LoRA模型服务在计算上过于昂贵且延迟极高,限制了其在实际视觉任务中的应用。研究难点: 该问题的研究难点包括:1)如何在保持准确性的前提下,将外部知识有效地集成到LoRA适配器中;2)如何高效地计算并发异构的LoRA适配器;3)如何灵活地编排LoRA适配器以满足不同视觉应用的性能需求。相关工作: 相关工作包括Punica和S-LoRA等系统,这些系统在处理语言应用时取得了一定的进展,但在视觉应用中仍存在效率低下和灵活性不足的问题。

这篇论文提出了V-LoRA系统,用于解决LoRA LMM在视觉应用中的效率和灵活性问题。具体来说,

准确性感知的LoRA适配器生成: 提出了一种准确性感知的知识融合算法,通过贪心启发式方法生成包含领域特定知识的LoRA适配器,以最小化适配器数量并满足应用特定的准确性要求。此外,设计了视觉任务头,作为LoRA适配器的一部分,以实现低延迟响应。自适应平铺LoRA适配器批处理: 提出了自适应平铺矩阵乘法(ATMM)操作符及其最优平铺搜索算法,用于高效计算异构LoRA适配器。离线搜索算法识别每种可能的输入矩阵形状的最优平铺配置,并在运行时根据输入形状和调用LoRA适配器选择最优平铺配置。灵活的LoRA适配器编排: 提出了一个编排器,用于在运行时高效灵活地编排LoRA适配器。开发了两个工具:一个切换器利用ATMM和统一内存管理实现快速推理模式切换和LoRA适配器交换;另一个混合推理模式deLoRA缓解饥饿问题。设计了一个算法动态切换三种推理模式,调度请求并管理LoRA适配器以满足每个应用的性能要求。

论文在五个流行的视觉任务上对V-LoRA进行了原型设计和评估,这些任务包括视觉检索和视频分析。实验使用了三个LMM(Qwen-VL-7B、LLaVA1.5-7B和LLaVA-1.5-13B)。实验设计包括:

数据集: 使用了SharedGPT-4V和RefCOCO数据集进行视觉检索任务,使用YODA和Cityscapes数据集进行对象检测任务,使用UCF101数据集进行视频理解任务。测试环境: 在一台配备NVIDIA A100 80GB GPU和Intel Xeon Platinum 8358 CPU的服务器上进行测试。工作负载: 视觉检索的工作负载来自Microsoft Azure LLM推理跟踪2023,视频分析的工作负载为每秒摄入一个视频块,每个块包含30帧。系统性能: V-LoRA在多个LMM和视觉应用上均表现出显著降低的平均令牌延迟。与dLoRA、Punica和S-LoRA相比,V-LoRA分别减少了72%、50%和20%的平均令牌延迟。在视频分析任务中,V-LoRA分别减少了89%、83%和71%的平均令牌延迟。准确性: V-LoRA在多个任务上的表现接近或超过了领域特定的小模型。例如,在视觉问答和图像标注任务上,V-LoRA的准确性提高了4.3%-5%,在对象检测和视频理解任务上,准确性提高了24.5%-62.2%。组件分析:准确性感知的LoRA适配器生成: 通过减少自回归解码的轮数,显著提高了系统性能。在视频分析任务中,V-LoRA的视觉任务头将延迟减少了41%-63%。自适应平铺LoRA适配器批处理: ATMM在不同批处理大小下均表现出最低的平均延迟,并且在稳定性方面优于其他操作符。灵活的LoRA适配器编排: 通过快速模式切换和混合推理模式,V-LoRA在不同偏斜度下的性能均优于单一模式。

V-LoRA系统通过准确性感知的LoRA适配器生成、自适应平铺LoRA适配器批处理和灵活的LoRA适配器编排,实现了对视觉任务的高效支持。实验结果表明,V-LoRA在多个视觉任务上显著降低了延迟并提高了准确性,展示了其在多GPU环境下的稳定性和可扩展性。V-LoRA不仅为视觉应用提供了高效的LoRA LMM服务,还为未来的视觉应用设计提供了多基础设计的潜力。

来源:宁教授网络空间元宇宙

相关推荐