视觉语言模型新突破! Perception LLM硬刚GPT-4o

B站影视 韩国电影 2025-08-28 23:13 2

摘要:极市导读:PLM团队用280万人工标注与6610万合成数据,首次在完全开源、零蒸馏的框架内把细粒度视频理解推到逼近GPT-4o的水平,并发布PLM-VideoBench,为社区提供一把可复现的视觉语言模型“透视镜”。

作者丨小书童

来源丨集智书童

编辑丨极市平台

极市导读:PLM团队用280万人工标注与6610万合成数据,首次在完全开源、零蒸馏的框架内把细粒度视频理解推到逼近GPT-4o的水平,并发布PLM-VideoBench,为社区提供一把可复现的视觉语言模型“透视镜”。

构建完全可复现的视觉语言模型框架(PLM):PLM由开源视觉编码器和大语言模型(LLM)解码器组成,整个训练流程不依赖闭源模型蒸馏。2. 发布大规模人工标注视频数据集PLM-FGQA:280万个细粒度视频问答对,覆盖动作识别、时间感知、空间理解等任务。PLM-STC:522,700个时空关联视频字幕样本,首个大规模密集视频区域字幕数据集。性能表现优异:在40个图像和视频基准测试中,PLM在未使用知识蒸馏的情况下,性能与当前最先进模型相当,显著优于完全开源模型(如Molmo)。在图像理解、OCR、文档理解、视频描述生成等任务上均优于现有开源和部分专有模型。细粒度视频理解显著提升:PLM在PLM-VideoBench基准测试中表现出色,尤其在细粒度问答(FGQA)和时空任务(如RCap、RTLoc)中远超现有开源模型。推动视频理解边界:PLM-FGQA和PLM-STC填补了当前视频理解中关于“什么、哪里、何时、如何”的细粒度标注空白,为模型训练提供了新方向。合成数据扩展存在瓶颈:尽管合成数据规模达到6610万,但在细粒度视频理解任务(如HardQA)上提升有限,表明当前合成数据生成机制难以覆盖复杂视频语义。 2. 与专有模型仍有差距:在部分任务(如SGQA)中,PLM仍落后于GPT-4o等专有模型,说明闭源模型仍具备优势。 3. 人工标注成本高昂:大规模高质量数据集的构建依赖大量人力,限制了数据扩展的速度和广度。 4. 模型规模受限:尽管PLM使用了1B、3B、8B参数的LLM解码器,但整体模型规模仍不及当前主流大模型,可能影响在复杂任务上的表现。

视觉语言模型是计算机视觉研究的重要组成部分,然而许多高性能模型仍保持封闭源码,其数据、设计及训练方法均不公开。研究界对此的回应是通过从黑盒模型中进行知识蒸馏来标注训练数据,从而在基准测试中取得了优异的成绩,但这以牺牲可衡量的科学进步为代价。然而,由于缺乏对教师模型及其数据来源的详细信息,科学进步仍然难以衡量。在本文中,作者研究在完全开放且可复现的框架下构建感知语言模型(Perception Language Model,PLM),以实现图像和视频理解的透明化研究。作者分析了不使用专有模型进行知识蒸馏的标准训练流程,并探索大规模合成数据以识别关键数据缺口,特别是在精细视频理解方面。为填补这些缺口,作者发布了280万个人工标注的细粒度视频问答对和时空关联视频字幕。此外,作者引入了PLM-VideoBench,这是一套用于评估具有挑战性的视频理解任务的工具集,重点关注推理视频的“什么”、“哪里”、“何时”和“如何”。作者通过提供数据、训练方法、代码和模型,确保了工作的完全可复现性。

GitHub: https://github.com/facebookresearch/perception_models

1 引言

视觉语言模型(VLMs)现已成为计算机视觉研究的关键组成部分,并在学术界和工业界得到广泛应用。许多表现最强的VLMs都是闭源的,这意味着它们的设计、训练方法和所使用的数据并未公开共享。为了保持竞争力,研究界开始通过一种直接的方法——从黑盒模型中进行蒸馏[1, 2, 3, 4, 5],即直接使用专有模型对训练数据进行标注[3, 6, 7],从而直接获得优异的基准测试结果。

尽管知识蒸馏能够解锁优异性能,但基础研究面临两大主要问题。首先,它使得追踪科学进展变得困难。具体而言,作者无法判断基准测试上取得更好结果是由于模型设计或训练的进步,还是仅仅因为专有教师模型在广泛使用的基准测试评估集或用于模拟这些基准测试的内部数据上进行了训练——这些信息不可得。其次,过度依赖知识蒸馏导致对从头开始训练视觉语言模型(VLMs)的当前方法有效性的根本性误解。仍有一些关键问题悬而未决,包括每个训练阶段的意义、合成数据的影响、研究社区应优先考虑的数据差距,以及这些差距中哪些目前正通过专有模型的蒸馏得到人为解决。

为了更好地理解这些挑战,作者开发了感知语言模型(PLM),这是一个完全开放且可复现的模型,用于图像和视频理解的透明研究(图1右)。PLM由一个具有小规模(KB参数)的视觉编码器和大语言模型(LLM)解码器组成。作者首先分析了使用可用数据的标准训练流程,没有任何专有模型蒸馏。作者研究了大规模合成数据,并建立了关键规模法则,以识别限制视频理解性能的关键数据差距,特别是在时空推理和细粒度理解任务方面。

为填补这些空白,作者创建了280万个高质量的细粒度视频问答和时空 Anchor 定视频字幕实例,如图1所示。本次发布的数据集比现有各类最大视频数据集几乎大了一个数量级[8, 9]。PerceptionLM、数据集和基准推动了视频理解领域的边界,为VLM研究的可复现和透明训练与评估提供了基础。在40个图像和视频基准测试中,作者使用开源权重模型(例如InternVL2.5[10])实现了与现有最先进模型相当的性能,且未使用专有模型进行蒸馏,大幅超越了完全开源的模型(即Molmo[11])。

2 相关工作

视觉语言模型。基于大语言模型(LLMs)的优势,近期提出了几种视觉语言模型(VLMs)用于图像理解[1, 12, 13, 14, 15, 16, 17, 18, 19]、视频理解[20, 21, 22, 23, 24, 25, 26, 27]以及图像和视频的联合理解[10, 28, 29, 30]。这些模型采用了多种建模进展,例如动态高分辨率输入[12]、自适应 Token 压缩[25, 31]和多模态位置嵌入[30]。

开源、开放数据的视觉语言模型。训练数据是开发强大视觉语言模型的关键组成部分。许多现有方法在未向社区公开的专有数据上进行训练[32, 33, 34, 35, 36],或使用专有模型生成的数据(例如GPT4o)[3],实际上是在封闭模型中进行知识蒸馏。这样做使得衡量科学进步变得困难,并限制了从零开始训练视觉语言模型的研究。Molmo[11]提出了一类开放数据模型,然而,它们是在相对小规模数据上训练的图像视觉语言模型,其性能如作者的实验所示会受到限制。

VLM基准测试。已提出多个基准测试来评估VLM的能力。流行的图像基准测试涵盖了广泛的感知和推理[37, 38, 39, 40, 41, 42, 43, 44, 19, 45, 46, 47, 48]以及图像描述[49, 50, 51]、文档/图表理解[52, 53, 54, 55, 56, 57, 58, 59, 60, 61]、数学推理[62, 63, 64]、视觉定位[65, 66]和幻觉[67, 68]。流行的视频基准测试涵盖了视频问答[20, 8, 69, 70, 71, 72, 73, 74, 75, 76, 77, 22, 78, 79, 80]、视频描述[81, 82, 83, 84, 85, 86, 87]以及视频中的幻觉[88, 89]。其中许多视频基准测试仍然是图像为中心的——它们有可以通过几帧回答的问题。基准测试中的视频为中心的推理已被相对忽视,最近才提出了用于长视频理解[90, 91, 92, 93, 94, 95, 96, 97, 98]和细粒度、时间推理[99, 100, 101, 102, 103]的基准测试。作者介绍了PLM-VideoBench——一个基准测试套件,旨在针对当前基准测试忽视的核心、视频为中心的能力,即细粒度活动理解和时空定位推理。

3 PLM概述

在本节中,作者概述了PLM开发所涉及的模型、训练阶段和训练数据。请参考图8进行详细了解,并参阅附录A获取更多信息。

模型 PLM 由一个视觉编码器和语言解码器组成,其中预训练的感知编码器(PE)[104] 通过一个两层MLP Projector 连接到Llama 3 [13] 语言解码器(1B、3B或8B参数)。作者为Llama3.2 1B和3B使用PE L/14,为Llama3.1 8B使用PE G/14。

对于图像输入,PLM结合动态Tile技术以支持高分辨率图像,最高可达 36 个 4482 分辨率的Tile,每个Tile进行 平均池化以压缩视觉 Token 。对于视频输入,PLM使用 32 帧 分辨率的图像,并在每个视频帧的空间维度上应用相同的池化操作。

表1:训练PLM的三个训练阶段总结。参见附录表7和表8以获取数据分割信息。

数据。用于训练PLM的数据包括合成数据和人工标注样本。合成数据增强了PLM的通用能力,而人工标注数据则将这些能力扩展到更复杂的任务。合成数据来源于多种多样的图像和视频数据集,涵盖了OCR、图表/文档/图形理解、图像/视频描述和视觉问答等基础VLM能力。作者为每种数据模态(例如自然图像、图表、文档、图形、第一人称和第三人称视频)设计了数据引擎,以高效扩展, 个样本。合成数据可能存在噪声,但规模庞大;另一方面,人工标注数据为图像和视频任务提供了丰富、高质量的监督。在此,作者结合了来自不同图像和视频来源的现有人工标注数据,以及作者专门收集用于细粒度视频理解和时空推理的人工标注数据(§5)。训练阶段。PLM 在三个阶段进行训练:

Projector 预热。首先,作者冻结视觉编码器和LLM,仅使用少量合成图像数据进行视觉 Projector 的训练。这预热了 Projector 中重新初始化的参数,并提高了后续阶段的稳定性。作者使用了SA-1B [105]中的100万张图像,其图像标题由作者的数据引擎(§4)生成。大规模合成数据中训练。接下来,作者在多种图像和视频领域大规模训练PLM,最多使用16个图像块和 16 个视频帧。PLM接触了约64.7M张图像和视频,这些数据带有合成生成的标题和问答对。作者采用数据引擎来扩展合成数据生成(参见 )。基于人工标注数据的监督微调。最后,作者使用更高分辨率的图像和更多视频帧来训练PLM,最多使用 36 个图像块和 32 个视频帧。在这个阶段,作者处理更具挑战性的视频任务,包括细粒度 和时空关联推理。4 合成数据生成与扩展

VLM训练的主流范式是通过生成合成标注来作为人类标注数据的廉价替代方案[1, 106, 30, 107, 10, 11, 15]。尽管在基准测试上看似能获得最佳结果,但社区中共享的大部分此类数据均源自专有模型。这一趋势使得科学进步与专有蒸馏影响难以分离。在本节中,作者以透明的方式探索当前VLM训练范式的有效性。作者完全基于开源模型设计数据引擎,并将合成数据生成规模扩展至约6610万张图像和视频样本。作者建立了在标准VLM任务(包括图像、OCR/文档和视频任务)上从合成数据中进行训练的规模法则。

作者的数据引擎旨在针对VLMs在图像和视频理解方面的基础能力进行优化。

图像数据引擎。作者为自然图像以及包含文档、图表和可通过光学字符识别(OCR)识别文本的图像生成短描述和长描述,以及问答对。作者 Prompt 开放可访问的Llama 3 [13]模型生成事实性强且详细的图像描述,同时最小化幻觉。为创建信息丰富的问答对,作者利用OCR数据、描述和其他元数据,这些数据被输入到纯文本LLM的 Prompt 中。

视频数据引擎。对于视频,作者首先使用现成的场景检测器[108]提取时长约为30秒的视频片段。然后,作者提取关键帧并使用Llama 3生成帧级字幕,同时使用作者在表2中展示的、基于阶段1和阶段3数据训练的初始PLM生成视频字幕。接下来,作者采用LLM通过将现有视频元数据(例如,动作标签、时间标签)整合进连贯、详细视频级字幕中,来优化帧级和视频字幕。类似地,作者从视频级字幕中生成问答对。

生成的合成数据具有大规模和多样性特点——包含66.1M个样本,这些样本是从多种图像和视频来源中精心筛选的,包括自然图像、自然场景文本、图表、图形、文档、第一人称视角视频和第三人称视角视频。更多细节请参见附录J。

作者研究了在受控设置下合成数据的缩放特性,并建立了缩放定律。

设置。为了建立下游基准测试的计算与验证集误差之间的幂律关系,作者变化合成数据的规模、语言模型解码器( $1 \mathrm{~B} 、 3 \mathrm{~B}$ 和 8 B )、视觉编码器( 300 M 和 2 B )以及分辨率/帧数。对于每种配置,作者使用来自作者的数据引擎的 66.1 M 合成数据和 6.5 M 公开可用的标注数据,按照 中描述的阶段 2 进行模型训练。每 2 M 个样本,作者在三个类别的下游基准测试(VideoQA、OCR QA、自然QA)上评估PLM,这些基准测试由 20 个视觉语言理解基准构成,为多模态大语言模型提供全面和通用的评估。作者计算这些数据点的帕累托前沿,并拟合幂律关系:Err。 ,并比较幂函数的指数 作为每种设置的扩展性,其中较小的 意味着更好的扩展性。

解码器规模的扩展。图2展示了PLM在不同LLM规模下的扩展行为。作者在对数尺度上展示了验证集误差和训练计算量,其中黑色线性线表示两者之间的幂律关系。不同的颜色(绿色、青色和蓝色)代表不同的语言模型规模( $1 B 、 3 B 、 8 B$ ),同时保持视觉编码器规模恒定为 。如上文设置部分所述,作者展示了每个基准类别中帕累托前沿的幂律拟合。作者还展示了仅使用 4 M 人类标注数据集训练的PLM结果作为 Baseline,用每种颜色的水平线表示。从水平线到数据点的差距标志着合成数据的影响。有趣的是,所有三个基准类别的测试都显示出计算量和平均基准误差之间的清晰幂律关系,幂律指数分别为Video QA的 -0.15 、OCR QA的 -0.20 和Natural Image QA的-0.11。在附录B中,作者提供了更多细节并将分析扩展到(1)扩展编码器规模,以及(2)扩展图像分辨率和视频帧。

合成数据的局限性。在图3中,作者在一组扩展的视频基准测试上评估了阶段2。具体来说,作者展示了在细粒度活动理解[97, 100, 89, 101, 99]、时间 Anchor 定[113]和长视频推理[92]这7个具有挑战性的视频任务上的结果。与通用、High-Level理解(例如“这个视频发生了什么”)不同,这些“具有挑战性”的任务需要深入理解视频在空间和时间上的内容,以及细粒度的语义细节。如图所示,具有挑战性的视频任务(紫色、梅子色、品红色中的“HardQA”)与通用视频问答相比,表现出较差的扩展趋势(-0.03),而通用视频问答的扩展趋势为-0.15。两种幂律拟合之间的显著差异表明,扩展合成数据仅对已建立的基准任务有效。将视觉语言模型扩展到这些更具挑战性、更复杂的任务仍然是一个未解决的问题。接下来,作者使用高质量的标注视频数据PLM-FGQA和PLM-STC来应对这一挑战。

如图3所示,当前基于合成数据的范式已陷入停滞。使用数千万个合成标注数据进行训练,几乎无法提升PerceptionLM在新的、具有挑战性的视频基准测试上的表现。除了标准的视觉语言模型任务外,这些基准测试还关注细粒度活动理解、时间 Anchor 定和长视频理解等High-Level能力。或许,这些基准测试所考察的知识,既不存在于作者数据引擎的初始训练集中,也不存在于现有的手工标注数据中。作者的社区缺乏用于详细视觉理解的、高质量数据集作为起点,这些数据集能够涵盖视频中活动的具体内容、位置、时间和方式。为弥补这一空白,作者引入了两个大规模、手工标注的视频数据集:

PLM-FGQA是一个细粒度视频问答数据集,通过让人类标注者观看短视频片段并回答模型生成的聚焦于人类执行"什么"活动以及"如何"执行这些活动的问题而收集。问题类型包括细粒度识别(动作和物体)、细粒度时间感知(运动方向、重复次数、手部姿势等)以及细粒度空间理解(物体位置和空间关系)。作者使用多阶段数据引擎,首先通过时间聚类和镜头检测从未剪辑视频中提取具有显著动作的视频片段。接下来,作者使用纯文本LLM或PLM的早期版本生成问题和答案。最后,通过让人类验证或替换不正确的答案来优化答案,从而得到高质量的问答对。

总体而言,作者从多个开放获取视频数据集[114, 115, 116, 117, 118, 83]中收集了240万个问答对,涵盖超过780K个不同领域的独特视频片段(例如烹饪、DIY、木工、汽车和自行车维修)以及不同视角(第一人称和第三人称);领域统计数据请参见图13。这几乎是社区中现有最大的人类标注视频QA数据集规模的近8倍[91]。此外,如图4(右上)所示的问题类型分解显示,PLM-FGQA包含大量关于细粒度细节的标注,而这些细节在现有的训练视频QA数据集中大多缺失[119, 69, 71, 76, 20, 120, 121, 122, 123]。请参见表16与现有数据集进行比较,表17为数据集示例,附录G提供更多详细信息。

PLM-STC是一个时空视频描述数据集,为每个视频提供详细的活动描述。它包含每个活动的 Token 时间(when')并聚焦于由masklet(where')识别的特定主体。作者采用两阶段标注流程以提高PLM-STC的收集效率。在第一阶段,标注员选择视频中表现出显著运动变化的有趣目标,并使用SAM 2 [124]生成初始mask tublets,然后对其进行细化以确保高质量的空间时间分割。对于主体超出画面的片段,作者自动补充"超出画面"的描述。在第二阶段,另一组标注员针对突出主体撰写时间局部化的描述,重点关注动作随时间的变化与整个视频的关系。

总体而言,作者收集了194.2K个时空字幕,作为首个现有的大规模密集视频区域字幕数据集。作者将这些时空字幕转换为三个任务进行训练:RCap(194.2K):给定视频区域和时间戳,模型生成字幕;RTLoc(194.2K):给定视频区域和字幕,模型定位动作;以及RDCap(122.3K):给定视频区域,模型生成密集、定位的字幕。总共,作者构建了194.2K + 194.2K + 122.3K = 522.7K个样本,其中476.2K个用于训练,其余用于构建PLM-VideoBench。数据集示例请参见图5,与现有数据集的比较请参见表19,数据集统计信息请参见表20,更详细信息请参见附录H。

作者的高质量人工标注数据为视觉语言模型提供了更广泛的能力范围,以实现整体视频理解。然而,现有的视频基准测试并不足以评估这些能力。为此,作者引入了PLM-VideoBench,这是一个新的基准测试,专注于特定活动(what)及其在时空背景(where and when)中的执行细节(how)。

细粒度问答(FGQA)。在该任务中,模型需要回答一个多项选择题(MCQ),该题目旨在考察细致的、细粒度的活动理解(例如,图6中“垂直”与“水平”的绘画方式)。作者报告了多二进制准确率(MBAcc)[99],其中每个问题被拆分为多个二进制选择题。作者的测试集包含4,371个问答对。更多详细信息,包括视频片段统计数据、片段时长、问题类型和基准构建,请参见表18

智能眼镜问答(SGQA)。在该任务中,模型需要回答有关智能眼镜设备(见图6,第二张图)记录的以ego为中心的视频流中可见活动和物体的开放式问题。这些问题旨在模拟用户在实际场景中向智能眼镜寻求帮助的情况。作者使用市售智能眼镜手动收集视频,提供了一个全新的、独特的数据集,反映了现代用例,如在线AI视频协助和活动指导。评估时,作者使用LLM-judge准确度,并采用开源模型(Llama3.3 70B)。测试集包含665对人工标注的问答对。更多详情请参见附录I。

视频区域描述(RCap)。在该任务中,模型必须生成一个详细描述视频中涉及感兴趣主体的事件的描述。给定一个区域 Mask 和指定的时间间隔,模型需要输出一个准确描述该时间间隔内发生事件的描述。与旨在生成视频级描述的传统视频描述[125, 83, 84]相比,本任务的目标是生成与特定主体(例如人、物体或动物)相关的区域级描述(见图6,第三)。测试集包含10,060个人工标注的实例,作者使用Llama3.3 70B报告了LLM裁判的准确率。详见附录C.3。

区域时间定位(RTLoc)。在该任务中,模型必须识别出视频中指定的主体发生特定事件的确切时间间隔。给定一个视频、一个区域 Mask 和事件的文本描述,模型需要输出对应事件发生的时间戳(起始和结束时间)(见图6第4项)。值得注意的是,这个任务与RCap相反——RCap生成字幕,而该任务接收字幕作为输入并生成相应的时间间隔。作者筛选测试集,仅包含明确定位的字幕,即它们映射到视频中单个时间窗口的字幕。因此,与RCap相比,测试集规模减少到7,910个实例。作者报告了在不同IoU阈值(0.3、0.5、0.7、0.9)下的平均召回率@1。详见附录C.3。

区域密集视频描述(RDCap)。在该任务中,模型必须生成涉及特定感兴趣主题(例如,人、动物或物体)的所有事件的详细描述。给定一个视频和区域 Mask ,模型必须生成覆盖整个视频时长的(start, end, caption)元组序列,包括主题不可见的时期(见图6,最后)。该任务由RTLoc和RCap组合而成,要求模型既要生成事件的时间窗口,又要直接从视频中生成描述。测试集包含2,620个样本,作者报告了SODA分数[126],该分数使用大语言模型(LLM)进行评判。详见附录C.3。

6 实验

作者首先概述 Baseline 方法和评估设置(§6.1)。接着,作者在广泛的图像(§6.2)和视频(§6.3)任务以及作者的PLM-VideoBench(§6.4)上,将PLM的基准结果与 Baseline 方法进行比较。最后,作者提供数据和方法消融分析(§6.5)。

作者将PLMs与以下两类 Baseline 进行比较:专有模型如GPT-4o [33](gpt-4o-2024-11-20)、Gemini-Pro 1.5 [34]和Gemini-Flash 2.0 [35]。作者使用API调用评估这些模型。开源模型如Molmo-O [11]、LLaVA-OneVision [28]、Qwen2.5-VL [106]和InternVL2.5 [10]——这些是当前最先进的开源模型,其模型规模、架构和推理代码均公开可用。作者使用所有模型的官方推理代码。推理协议。在PLM-VideoBench中,对于 Mask 输入,作者在视频帧上叠加彩色框以指定区域。除非特别说明(括号内标注),否则作者报告验证集的性能指标。带有 Token 的指标使用LLM作为评判者。完整的实现细节,包括推理超参数、任务 Prompt 、评判者 Prompt 和专有模型评估协议,可在附录C.4中找到。

作者在总共20个图像基准上评估了PLM。图表、图形和文档:回答需要解析文档和图形图像的问题;图像描述:生成简短/详细的描述;感知与推理:回答关于物体、动作、功能对应、多视角推理、空间布局等不同难度的提问;幻觉:评估对幻觉细节的鲁棒性。更多细节请参见附录C.1。带*的细胞报告了文献中的数值,其余的通过官方代码再现。在附录表14中展示Image Grounding任务在[65]数据集上的结果,并证明PLM在所有模型尺度上均优于专业模型以及VLM Baseline 模型。

作者在总共25个视频基准上评估了PLM。作者将这些基准分为以下类别。

视频字幕生成:为视频生成简短字幕,或对事件进行密集描述;短视频问答:回答关于短视频(几秒到一分钟)的问题,可通过从选项列表中选择,或提供自由格式回答;长视频问答:与之前类似,回答关于更长视频(几分钟到几小时)的问题;细粒度问答:回答关于空间位置、运动、时间信息等的详细问题;以及幻觉评估:评估视频模型对物体和事件幻觉细节的鲁棒性。

此外,作者在大多数具有挑战性的基准测试中取得了具有竞争力的性能,例如EgoSchema(68.8%)、MotionBench(61.4%)、TOMATO(33.2%)、TempCompass(72.7%)、TemporalBench(28.3%)、Charades-STA(58.6%),等等。作者所有模型的规模在性能上均表现出色,不仅优于同等规模的专有模型,也优于同等规模的开放基准模型。

最后,作者还展示了在各种规模下,PLMs在图像描述任务和幻觉检测任务上均大幅优于现有方法,这得益于作者在人类标注数据集中对详细、细粒度的时空标注的关注。

作者在表5的S 5.1部分报告了作者提出的基准PLM-VideoBench的结果。作者评估了作者的PLM以及(专有和开放获取) Baseline 模型。此外,作者在第一行提供了每个子任务的人类表现。结果表明 Baseline 模型与PLM之间存在显著差距。专有 Baseline 模型和开放源代码 Baseline 模型在FGQA任务上表现合理,尽管仍比PLM低6.5分(61.2 vs 67.7)。在SGQA任务中,视频来源和问答对对所有模型都是未知的,PLM表现合理,但比开放获取最佳模型(InternVL2.5)低2.1分,且远不及最佳专有模型。

(GPT-4o)在时空任务(RDCap、DCap、RTLoc)中,开源 Baseline 无法进行基于理解的推理,而是对每个时间间隔重复相同的标题。专有模型表现尚可,但远未达到人类水平。在PLM-VideoBench的所有子任务中,PLM与专有和开源 Baseline 相比表现出具有竞争力的性能。所有模型尺度的结果在附录D中。

需要注意的是,人类的表现会根据任务的性质和评估指标而有所不同。例如,FGQA的人类评分自然高于RCap,因为该任务是结构化的(选择正确选项与开放式回答),而指标是客观的(准确率与LLM裁判准确率)。

设置。作者进行消融研究以评估作者提出的每种数据的重要性,包括合成数据和人工标注数据。作者从PLM 3B(在阶段2训练后)开始,并在4M短图像和视频SFT数据混合2上进行微调以进行数据消融。作者评估并报告了跨五个类别的平均视频基准性能——视频字幕生成、短视频问答、细粒度问答和视频幻觉,以及空间和时间任务,以及PLM-VideoBench和三个图像类别——图像OCR、图像字幕生成和图像感知。详细信息见附录A.3。

讨论。首先,作者观察到阶段2合成数据训练全面提升了模型性能。此外,加入作者的PLM-STC数据进一步提升了多种基准测试的表现,包括PLM-STC C +27.4 分)、视频字幕生成( +2.4 分),以及最重要的是时空任务( +6.8 分)。加入作者的PLM-FGQA数据则改善了细粒度活动理解的特定类别;PLM-FGQA +13.1 分)、PLM-SGQA( +7.3 分)、细粒度视频任务( +1.3 分)、视频幻觉任务 分)以及时空任务 分)。使用作者人工标注的数据整体上取得了最佳性能。进一步在图7中,作者展示了作者的人工标注数据提升了HardQA[97,100,89,101,99,113,92],有效解决了第 节中讨论的合成数据的局限性。

7 结论

这项工作提出了感知语言模型(Perception Language Model,PLM),一种完全可复现的视觉语言模型,旨在透明地处理视觉感知任务,而无需对私有黑盒模型进行蒸馏。作者使用来自现有开放数据集以及作者数据引擎生成的合成样本来训练PLM。作者发现,在精细视频理解能力方面存在合成数据无法填补的空白。为此,作者收集了280万人类标注数据用于细粒度视频问答和时空关联字幕生成,并创建了一个新的基准测试集PLMVideoBench来评估这些能力。作者希望作者的开放数据集、基准测试集和模型能够促进视觉感知领域的透明化研究。

参考[1]. PerceptionLM: Open-Access Data and Models for Detailed Visual Understanding.

来源:极市平台

相关推荐