格灵深瞳冯子勇揭秘城市级多模态安防的35%精度提升之道

B站影视 电影资讯 2025-10-15 15:03 2

摘要:在DACon大会前夕,格灵深瞳技术副总裁冯子勇博士分享了其团队在多模态AI落地实战中的核心洞察与技术突破。面对CLIP等通用模型在城市级安防中面临的数据分布差异、中文组合语义理解等挑战,团队探索出一条“先做强单模态,再对齐多模态”的高效路径。

在DACon大会前夕,格灵深瞳技术副总裁冯子勇博士分享了其团队在多模态AI落地实战中的核心洞察与技术突破。面对CLIP等通用模型在城市级安防中面临的数据分布差异、中文组合语义理解等挑战,团队探索出一条“先做强单模态,再对齐多模态”的高效路径。

其自研的视觉基础模型Glint-MVT,通过间隔Softmax损失函数打造了高度判别性的视觉表征基座,为多模态模型提供了高质量的图像编码基础。针对高质量图文对数据稀缺的行业痛点,团队创新性地通过RealSyn数据构建方法和ALIP/CLIP-CID数据“提纯”技术,在保证模型通用性的同时,显著提升了模型在安防等垂直场景下的语义理解精度,其中组合理解能力提升达30%,检索精度提升约35%。

这些技术已成功应用于万路摄像头实时系统,实现了亿级特征的秒级检索,支撑起大规模城市动态管理、跨时空寻亲等复杂应用。冯博士指出,未来突破的关键在于高效整合已有基础模型的能力,通过蒸馏与迁移学习,在效果与效率间找到最佳平衡。

在会议召开前,我们采访了冯博士,请他提前剧透一些技术点,帮助读者了解演讲的核心内容,以下是采访的的问答内容。

DataFun:CLIP等模型为我们提供了强大的跨模态理解基础,但在您看来,将其应用于城市级安防等“实战”场景时,最核心的挑战是什么?是数据、模型效率,还是语义理解的精细度?

冯子勇:在实际落地中,最大的挑战是任务和场景不匹配,CLIP 是基于互联网的广泛数据训练得到的,城市级安防主要是监控场景的图像,从数据分布上就存在差异,如物体大小、清晰度、角度等。另外在使用上,查询文本可能存在否定词(如“未戴口罩”)、组合属性(如“红上衣黑裤子的人”)等情况,且多为中文描述,这对 CLIP 的语义理解与语言兼容性提出了更高要求。

DataFun:高质量图文对数据稀缺是行业共识。RealSyn 100M 的“可控生成”逻辑是如何确保生成的数据能有效弥补真实数据分布的不足,从而提升嵌入模型通用性的?它与简单地从互联网爬取数据有何本质区别?

冯子勇:RealSyn 探索如何将现实世界中存在的大量非图文对数据(例如多模态文档、纯图片等)用于图文对比学习训练。

首先从数据来源,RealSyn 数据集基于图文交错文档构建,相较于社交平台,多模态文档的语境通常更加正式且数据质量更高。

其次,与传统数据增强以及最近的合成数据生成等工作不同,RealSyn 强调充分利用真实世界知识,尤其关注语境的差异。我们首先构建高质量的图片库和句子库然后通过语义匹配的方式来将一张图片与多张语义相关但是语境不同的句子匹配到一起,不同语境的描述文本可以更好的指导模型学习现实世界的语义从而提升对复杂场景的鲁棒性与泛化能力。

DataFun:ALIP/CLIP-CID 通过数据重写和去冗余来“提纯”数据。在您看来,这类数据优化工作对最终模型嵌入能力(Embedding Ability)的提升,与直接增加数据规模相比,哪个更为重要?能否分享一个数据优化直接带来检索精度提升的量化案例?

冯子勇:两者并非对立,而是协同关系。ALIP 通过生成与图像更加匹配的合成文本描述来指导模型更好的在特征空间进行语义对齐,CLIP-CID 则是探索如何去除海量数据中的冗余数据从而大幅度降低训练成本。

直接增加数据肯定可以带来提升,但同时需要更大量的算力,而且算力增加成本会远大于性能提升的收益。

在实际业务中我们基于海量安防图片构建精细的高质量文本描述,指导模型更好的学习安防场景下的语义信息。同时利用 CLIP-CID 的去冗余技术,可以无损去除50-60%的冗余数据,从而在保证不损失性能的前提下,降低50%-60%的训练成本。经过海量业务数据训练后,相较于通用检索模型,我们最终在业务评测中实现检索精度提升约35%,验证了数据质量优化在实战中的关键作用。

DataFun:实际数据中的噪声不可避免。在构建RealSyn或训练模型时,团队设计了哪些专门的噪声过滤或数据加权机制来保证学习到的嵌入表示(Embedding)的鲁棒性?

冯子勇:RealSyn 设计了单模态和跨模态两类噪声过滤机制。在单模态过滤中,我们整合了质量过滤、感知去冗余、语义去冗余等多种机制;在跨模态过滤中,我们整合了图文相似度过滤、语义均衡采样等机制。

DataFun:DeGLA针对组合理解进行优化的。这意味着模型在文本编码器端学会了生成更精细的文本嵌入(Text Embedding)。这项改进对于提升图文匹配在安防等复杂场景下的准确率有何关键意义?

冯子勇:在安防业务中,组合理解一直是一个痛点。例如模型在语义空间很难精准的区分“穿白上衣黑裤子的人”和“穿黑上衣白裤子的人”。

虽然现在学术界有很多聚焦组合理解问题的解决方法,但是我们在实际测试中发现这类方法提升了组合理解性能但同时严重损害了模型原有的通用能力。

因此我们提出 DeGLA,通过引入自蒸馏等机制来保证通用能力的同时增强模型的组合理解性能。在实际业务中,我们基于安防业务构建百万级组合理解数据集,在业务 Benchmark 中取得30%的性能提升。

DataFun:我们注意到团队还研发了视觉基础模型 Glint-MVT。我们特别感兴趣的是,一个在大规模图像数据上通过间隔Softmax 等度量学习方式训练得到的强大视觉编码器,是如何为后续的多模态模型(如RWKV-CLIP,UniME)提供更高质量的图像表征基础的?这是否意味着更好的单模态视觉嵌入是通往更好多模态嵌入的必经之路?

冯子勇:Glint-MVT 是格灵深瞳⾃研的视觉基础模型,核心价值在于它通过间隔 Softmax 损失函数和百万级虚拟类别训练,构建了一个高度判别性的视觉表征基座。其能力持续进化,最新版 MVT v1.5 在 OCR 和分割等专业下游任务上效果优于 v1.1 版和 AIMv2、SigLIP2。

在实战中,Glint-MVT 的细节敏感特性尤其重要。以 UniME 的指令微调为例,模型能够借助 Glint-MVT 对局部特征的精准提取,实现与复杂文本指令(如“穿白上衣黑裤子的人”)的更精准匹配。此外,基于 Glint-MVT 拓展的 Glint-RefSeg 模型已在零样本参照分割任务中达到 SOTA,进一步验证了单模态基础模型在多模态任务中的迁移价值。

学术界已经有一些相关的研究,如 FLIP、dino.txt 等,好的视觉基础模型可以认为是好的起点,只需要跟文本编码或其他模态编码对齐即可。

面对高质量图文对数据稀缺的现实,我们认为“先做强单模态,再对齐多模态”是一条务实且高效的路径。成对数据不足时,强单模态模型可通过少量样本快速适配多模态任务,显著降低训练成本与数据依赖。尽管端到端的多模态训练是未来方向,但在当前产业落地中,基于强视觉基座的技术路径仍是在效果与效率之间实现平衡的关键选择。

DataFun:UniME的提出动机是什么,是通过什么样的技术解决了哪些问题?

冯子勇:UniME 是基于 MLLM 的多模态大模型转化得到的,这里参考了大语言模型 decoder-only 到 encoder 转化的路径,同时也因为 UniME 继承了多模态大模型优秀的图文理解能力,可以在 MTEB 上取得第一。

UniME 首先增强最核心的组件 LLM 的表征能力,为了考虑后续统一表征与判别我们并没有改动 LLM 的因果注意力而是选择使用蒸馏来增强其表征能力。之后为了进一步增强 UniME 的判别能力,我们提出一种困难负样本增强的指令微调方法,该方法一方面降低假阴样本的干扰,另外一方面挖掘困难负样本增强模型的判别能力,除此之外通过指令微调来增强模型的指令跟随能力。

DataFun:在“万路摄像头实时系统”中,多模态嵌入技术具体是如何应用的?它是如何支撑起“以图搜图”、“以文搜图”这类核心功能,并实现秒级响应的?

冯子勇:在实时系统中,图像编码器会选用稍小尺寸的模型,而文本编码器因 QPS 较低则可以选用大一点的模型。整体流程是摄像头实时把图片流送给图像编码器形成图像特征并存到向量数据库中,当用户用文本查询时,用户文本通过文本编码器编码成查询特征,给向量数据库进行查询并返回结果。我们有一个自己实现的向量数据库,可以做到亿级特征的秒级返回。

DataFun:您认为,未来要学习到更强大的多模态嵌入,下一个突破点会更依赖于更大规模/更高质量的数据,还是更先进的模型结构?抑或是其他因素?

冯子勇:数据和模型将持续迭代,但更重要的是如何高效整合已有基础模型的能力。借助蒸馏、迁移学习等技术,将大模型的认知能力高效注入轻量化嵌入模型中,是实现效果与效率平衡的关键路径,也是我们持续投入的方向。

嘉宾介绍

冯子勇 博士 是格灵深瞳公司的技术副总裁、算法研究院院长,他专注于计算机视觉与多模态学习研究与实践,成果发表于 CVPR 等顶级会议(如 Glint360K,PartialFC,Unicom,MLCD),Glint360K 和 PartialFC 已经被合并至insightface(最受关注的人脸识别repo,8.3k star),Glint360K 已经被京东、oneflow、中科院自动化所等公司和科研机构使用。基于间隔 Softmax 训练得到的视觉预训练模型 Glint-MVT 可支撑分类检测等基础视觉任务,也可以提升多模态大模型的效果,对应的参考分割模型达到了SOTA。在格灵深瞳,领导团队成功将先进视觉与多模态技术应用于大规模城市级空间智能系统,实现:

高效城市级人员动态管理:构建支持两万路摄像头输入的实时人脸/人体聚档系统,支撑城市级安防应用。跨时空身份关联:开发同亲缘跨年龄人脸比对技术,协助警方成功寻亲。复杂行为理解:在智慧体育、金融场景中实现高精度人体行为与事件识别(如倒地检测达万分之一误报下99%召回率),并在OpenFAD2023、SkatingVerse等空间动作识别竞赛中夺冠。致力于推动多模态大模型在垂直领域的落地与创新。

2025年10月24-25日,北京DACon数智技术大会将在北京丽亭华苑举办,DACon大会汇聚了顶尖互联网公司的 Agentic AI 建设先锋,内容直击企业AI落地的核心挑战与解决方案。无论您是关注AI平台建设、工程效能提升、模型应用落地,还是寻求降低开发门槛、释放创新潜力的技术决策者或开发者,都将在这里获得极具价值的启发与实践参考。

除了两天的技术干货分享,会议现场还会组织闪电演讲,闭门会,晚场圆桌交流,讲师们会围绕具体的技术点进行介绍,旨在丰富大家在参会体验,希望大家不虚此行,满载而归。

来源:DataFunTalk

相关推荐