摘要:英伟达研究团队发布了一项名为OmniVinci的研究,它仅用六分之一的训练数据,就在关键的全模态理解基准测试中,取得了比现有顶尖模型高出19.05分的惊人成绩。
英伟达研究团队发布了一项名为OmniVinci的研究,它仅用六分之一的训练数据,就在关键的全模态理解基准测试中,取得了比现有顶尖模型高出19.05分的惊人成绩。
这项研究的目标是构建一个能同时理解视觉、音频和文本的全能AI,让机器像人类一样,通过多种感官来感知和理解这个复杂的世界。
训练这样一个全能的系统,成本高昂且挑战重重,极其依赖网络架构和数据配方的选择。
OmniVinci项目就是英伟达在这方面系统性努力的成果。
它不是简单地堆砌数据,而是通过精巧的架构设计和创新的数据策略,实现了效率和性能的双重突破。
OmniVinci让模型全面能力提升
OmniVinci是一个全模态理解大语言模型。
在衡量跨模态理解能力的Dailyomni基准测试上,OmniVinci比Qwen2.5-Omni高出19.05分。在音频理解MMAR测试上高出1.7分,在视觉理解Video-MME测试上高出3.9分。
更令人印象深刻的是,取得这些成绩,OmniVinci只用了0.2万亿(T)的训练Token,而Qwen2.5-Omni的训练量是1.2万亿(T)Token,OmniVinci的数据效率是其6倍。
它的核心优势,在于创新的架构设计和数据管理策略。
模型通过一个统一的全模态潜在空间,将不同感官的信息融合在一起,实现了跨模态的理解和推理。
研究团队发现了一个关键现象:不同模态之间在感知和推理层面可以相互强化。这个发现为构建更强大的多模态AI系统指明了新的方向。
创新的架构是实现全模态理解的关键
OmniVinci的架构设计,目标是实现一种可组合的跨模态理解能力。
它将图像、视频、音频和文本这些异构的输入,整合到一个共享的全模态潜在空间中。
模型首先对视觉和音频信号进行编码,然后将它们对齐,作为语言模型主干的输入。
为了简化设计,研究人员将视频分解为一系列有时序关联的图像和音频片段,并用一个统一的音频编码器来处理所有的声音和语音信息。
真正的创新在于其全模态对齐机制,它像一个中枢系统,将所有模态的嵌入信息(embedding)整合到一个统一的潜在空间,再喂给大语言模型(LLM)。
这个机制包含三项关键技术。
第一项技术是OmniAlignNet模块。
一段视频中,画面和声音天然就存在语义上的连接,它们互为补充。比如,画面是一个人张嘴,声音是他在说话,两者结合才是完整信息。
OmniAlignNet正是利用了这种互补性,来加强视觉和音频嵌入信息的学习与对齐。
它的工作方式是,首先将视觉和音频的嵌入序列,映射到一个共享的潜在空间。然后,通过一种叫做对比学习的方法来对齐它们。
简单来说,就是让来自同一视频片段的视觉和音频嵌入在空间中相互靠近,而让来自不同视频片段的嵌入相互远离。
这种方法受到了ImageBind和CLIP等经典模型的启发,通过一个对比损失函数来鼓励模态之间的双向对齐。
OmniAlignNet有效地对齐了视觉和音频的高级语义,比如“狗”的图像和“狗”的叫声,但它在建模两者的时间关系上有所欠缺。
比如,视频里是先打雷还是先闪电,这个时序信息很重要。
为了解决这个问题,研究团队引入了另外两项技术。
第二项技术是时间嵌入分组(Temporal Embedding Grouping, TEG)。
这个方法非常直观,它根据时间戳,将视觉和音频的嵌入信息分组。
想象一下,你正在剪辑一段视频。你会把时间上相邻的视频帧和音频片段放在一起。TEG做的就是类似的事情。
它设定一个时间组的持续长度,比如2秒。那么在0到2秒内出现的所有视觉帧和音频样本的嵌入,就被归入第一个时间组。在2到4秒内出现的,归入第二个时间组,以此类推。
然后,这些组按照时间顺序排列起来,形成一个全模态的嵌入序列。
比如,[第一组视觉, 第一组音频, 第二组视觉, 第二组音频, ...]。
这种按时间分组和排序的方式,将相对的时间顺序信息编码到了输入序列的位置中,让后续的大语言模型(LLM)能够更好地捕捉不同模态信息之间的时间关系。
实验证明,这种方法显著提高了模型理解多模态信息的能力。
第三项技术是约束旋转时间嵌入(Constrained Rotary Time Embedding, CRTE)。
TEG解决了相对时间顺序,但缺乏编码绝对时间戳信息的能力。也就是说,模型知道事件A发生在事件B之前,但不知道A具体发生在视频的第几秒。
以前的工作(RoTE)尝试用嵌入旋转的方式注入绝对时间信息,但这种方法对微小的时间波动很敏感,难以捕捉大的时间偏移。
CRTE通过一种约束策略解决了这个问题。
它首先定义一个最大时间范围,比如视频总时长,这决定了最粗的时间分辨率。
然后,它会生成一组基础频率,这些频率被设计成几何级数。也就是说,有些频率很高,有些频率很低。
接着,这些基础频率会根据具体的时间戳进行调制,确保时间差异能反映在嵌入的旋转中。
最后,它将这种旋转应用到嵌入向量上。
这里的精妙之处在于,高频旋转对细微的时间差异非常敏感,能够区分那些发生时间非常接近的事件。而低频旋转则旋转得很慢,适合编码长时间跨度上的关系,为大的时间间隔提供稳定信号,避免了高频信号可能带来的混叠问题。
通过这种多尺度的频率划分,模型可以同时关注局部和全局的时间上下文,从而获得对绝对时间强大而全面的表示。
经过CRTE处理后,时间对齐的全模态嵌入序列被送入大语言模型(LLM)主干,使其能够在后续处理中整合精细和粗略的时间线索。
最终,这个架构能够灵活地感知各种输入模态的组合,比如有声视频、无声视频,或者带有语音、文本提示的图像。
在输出端,模型生成的文本可以轻松连接到现成的文本转语音(TTS)模块,让用户可以为视频生成语音描述,或者用语音来指挥机器人。
精心设计的数据和训练策略事半功倍
为了让一个预训练好的大语言模型(LLM)逐步具备全面的全模态理解能力,研究团队采用了一种两阶段的训练方法。
第一阶段是模态特定训练。
他们从一个预训练好的语言模型(Qwen2.5-7B-Instruct)开始,先独立地训练模型理解视觉的能力和理解音频的能力。
这个阶段使用的是只包含单一模态信息的数据集,比如纯图像问答数据集或纯音频分类数据集。
第二阶段是全模态联合训练。
在模型具备了初步的单模态能力后,研究团队开始进行联合训练,整合这些能力。
这个阶段使用了两种数据:一部分是第一阶段用过的模态特定数据,另一部分是包含视觉和音频的全模态数据。
对于全模态数据,研究团队又根据监督方式的不同,将其分为隐式学习数据和显式学习数据。
隐式全模态学习,利用的是现有的视频问答(QA)数据集。
这些视频本身就包含视觉和音频,但问题和答案通常只关注视觉内容。研究团队发现,即使这样,同时输入视觉和音频流也能隐式地监督和提升模型对音视频的联合理解能力。
这种做法在之前的工作中被忽视了,但它带来了视频理解性能的显著提高。
为了获得对联合视觉-音频理解能力更直接、更准确的监督,团队进一步提出了一个全模态数据引擎,来进行显式全模态学习。
这个引擎专门为带有音轨的视频合成全模态标签。
团队发现了一个关键洞察:只依赖单一模态(纯视觉或纯音频)生成的字幕,往往是不准确的,因为每种模态都有其固有的局限性。
比如图中,一个关于深海探索的视频,只看画面的字幕模型可能会错误地认为这只是关于人类科技的内容,因为它听不到解说词。而只听声音的字幕模型可能会将其标记为与“地球内部”相关。
研究团队将这种现象称为“模态特定幻觉”。
为了解决这个问题,他们的数据引擎使用一个大语言模型(LLM),来纠正和总结由视觉字幕模型和音频字幕模型分别生成的字幕。
这个LLM会综合两边的信息,生成一个全面且准确的联合字幕。
这种方法帮助模型实现了正确的全模态理解。
此外,他们还使用推理LLM,从这些全模态字幕中合成了带有推理过程的问答对,进一步增强了数据的多样性和质量。
这个数据引擎生成的数据集,极大地促进了模型的学习。
最终的联合训练数据集,包含了来自图像、视频和音频理解任务的150多个子数据集,共计2400万个对话样本。
其中,全模态数据占15%,图像数据占比最大为36%,语音数据占17%,非语音声音占21%,视频数据占剩下的11%。
为了实现语音提问的能力,团队还使用TTS模型将多模态任务中的文本问题转换成语音,生成了大量的语音-视觉输入对,覆盖了从一般理解、图表分析到科学推理等各种场景。
全面的实验证明了模型的卓越性能
研究团队进行了一系列实验来验证他们的设计选择,并与当前最先进的模型进行比较。
首先是消融研究,用于验证各个创新模块的有效性。
他们在一个基线模型(简单的将不同模态的Token连接在一起)上,逐步添加TEG(时间嵌入分组)、CRTE(约束旋转时间嵌入)和OmniAlignNet。
结果显示,每增加一个模块,模型的平均性能都有显著提升。
TEG带来了2.21分的平均增益。在TEG的基础上,CRTE的表现远超其他时间嵌入方法,带来了额外的2.53分提升。最后加入OmniAlignNet,再次将平均分提高了2.34分。
这证明了提出的三个架构创新都是有效且互补的。
接下来,他们验证了隐式和显式学习的效果。
仅仅在训练中加入视频的音频流(隐式学习),模型在VideoMME基准测试上的性能就有了明显增益。这说明直接从音频中学习是有价值的。
当进一步加入数据引擎生成的全模态数据进行显式学习后,性能获得了更强的改进,证明了数据引擎的有效性。
在验证了所有设计选择后,团队使用完整的2400万对话数据集进行了大规模训练和评估。
在全模态基准测试上,OmniVinci取得了53.73的平均分,创造了新的技术水平,比次优的Qwen2.5-Omni高出4.07分。
尤其在Dailyomni数据集上,OmniVinci以66.50的分数遥遥领先,比Qwen2.5-Omni高出19.05分,优势巨大。
在纯音频基准测试上,OmniVinci同样表现出色。
在MMAR和MMAU上,它都超过了Qwen2.5-Omni,展示了其在一般音频理解方面的改进。
在语音识别(ASR)任务上,OmniVinci的词错误率(WER)也达到了行业领先水平,与Whisper-large-v3等专用模型不相上下。
在视频基准测试中,OmniVinci同样证明了自己。
它在LongVideoBench、MVBench和Video-MME等多个测试中,均超过了包括Qwen2.5-Omni在内的其他开源模型。
这里引出了第二个关键洞察:增强的音频理解能力,能够反过来在视频基准测试中带来一致的性能提升,这与人类感知世界的方式非常相似。
最后,在图像基准测试上,OmniVinci在保持全模态能力的同时,其图像理解性能与顶尖的纯视觉语言模型(如NVILA)相当,证明了模型的多功能性并未以牺牲单一模态性能为代价。
为了进一步提升模型的推理能力,研究团队还应用了群组相对策略优化(GRPO)算法进行后训练。
这是一种强化学习(RL)技术,通过让模型生成多个候选答案,并根据答案的准确性和格式给予奖励,来优化模型的策略。
结果显示,经过RL训练后,OmniVinci在所有基准测试上的性能都得到了持续提升。
与Qwen2.5-Omni的比较显示,OmniVinci凭借更强的基线性能,在RL训练中收敛得更快更好。
这里得到了第三个关键洞察:联合音频-视觉输入比纯视觉输入进行GRPO训练效果更好,收敛速度更快。这再次证明了音频信息对于视频学习的重要性。
OmniVinci的能力也成功应用到了各种下游任务中,包括语音提示的机器人导航、体育视频理解、跨语言语音翻译、结合医生口头解释的医疗分析以及半导体工厂监控等,并在这些领域取得了新的前沿性能。
在真实世界视频的定性测试中,OmniVinci表现出强大的泛化能力。它能全面理解从未见过的在线视频中的视觉和音频信息,并将语音提示与视觉数据结合,实现更有效的交互。
OmniVinci是英伟达在构建全模态大语言模型方面的一次系统性突破。
它通过OmniAlignNet、时间嵌入分组和约束旋转时间嵌入等架构创新,结合精心策划的数据和训练配方,在大幅降低训练成本的同时,取得了最前沿的全模态性能。
参考资料:
来源:算泥社区
