摘要:10月,一项由深圳北理莫斯科大学与阿德莱德大学联合研究团队共同提出的技术引发了广泛关注。
AI技术再次突破!实时视频秒“剪”实现,OVG-HQ的含金量有多高?
10月,一项由深圳北理莫斯科大学与阿德莱德大学联合研究团队共同提出的技术引发了广泛关注。
它叫 OVG-HQ,中文名是“混合模态在线视频定位”。
它解决的问题很实际:让AI在实时视频流中,以秒为单位剪出你想要的那一段内容,无需事后慢慢翻找。
比如,VR训练场景。
在训练篮球投篮时,学员佩戴VR设备,后台同步录制第一视角视频。
事先上传一个库里三分球的视频片段作为参考。
AI会实时比对学员的动作,一旦出手动作与库里高度相似,就即刻高亮并剪辑出这段画面。
这是 OVG-HQ 已经实现的功能之一。
这个技术的核心能力在于,它在“看视频”的同时,能“理解文字、图像、视频”这三种不同模态的信息,并将它们融合用于检索与定位。
很多人听到这个技术,会以为只是把剪辑速度提快了。
其实它解决的是更本质的问题:你怎么告诉AI你想找什么?
传统方法通常靠文字关键词,比如“有人摔倒”或“有人聚集”。
现实中的画面远比语言复杂。
一个“完美三分”的动作,包含了起跳、弧线、落地,每一帧都有信息。
光用文字是说不清楚的。
OVG-HQ 的特别之处在于,引入了“混合模态查询”机制。
也就是说,上传一段视频、发一张图、写一段话,甚至图文一起给,系统都能理解你的意图,去实时视频中找到对应片段。
研究团队为此构建了一个名为 QVHighlights-Unify 的数据集,包含 71,600 组查询样本、8种模态组合,覆盖了图像搜索、图文组合、视频片段等多种形式。
数据集本身就体现出这项技术对“多模态理解”的要求有多高。
实时处理一个视频流,系统最大的挑战是:不能忘记前面发生的内容。
为此,研究团队提出了一个叫 参数化记忆模块(PMB)的结构。
它的逻辑不复杂:系统把当前帧的信息压缩进“记忆参数”,再利用这些记忆增强当前帧的理解能力。
实验数据很明确:在生成视频片段的查询任务中,PMB 的准确率为 20.13%,相比传统的 LSTM(17.41%)或注意力机制(11.85%)有明显优势。
除了这些,还有难题。
比如你给了系统一段完整的视频片段作为参考,它理解得很好。
如果你只给了一张低清晰度的图片,系统会不会就“看不懂”了?
为了解决这个问题,研究团队引入了 混合模态蒸馏机制(Hybrid-modal Distillation)。
它的做法是,先用“强模态组合”(比如文字+视频片段)训练一个“专家模型”,然后利用专家输出作为软标签,引导“学生模型”学习如何处理信息稀疏的模态。
从实验结果来看,这一策略收效明显。
OVG-HQ 还引入了两个新的在线指标:oR@n(Online Recall@n)和 omAP(Online mAP)。
这两个指标核心是衡量系统在多大程度上“快速且准确”命中用户意图片段。
这两个又指标引入了一个叫时间衰减因子β的机制。
预测越早命中,得分越高;预测越晚,得分越低。
这个机制让系统追求“准”的同时又追求“快”,非常贴合直播、安防等场景的需求。
OVG-HQ 的出现,是对现有视频理解的一次突破。
这个技术的意义远不止安防和直播。
当AI开始理解我们的图像、语言、视频意图,能“边播边剪”时,它就从工具变成了助手。
它是人们通向“人机语义对齐”的一步。
来源:妇产科医生小永