摘要:金融行业的安防系统可以追溯到数百年前,并随着技术发展和安全需求变化不断演变和升级。20世纪初,银行开始使用入侵报警和视频监控系统,在金库和保管库安装各种入侵探测器,以防止现金和重要物品被盗;在现金交易柜台安装紧急报警按钮,以便发生抢劫、暴力袭击等事件时能够迅速
中国人民公安大学安全防范与风险评估公安部 重点实验室副教授 陈文静
金融行业的安防系统可以追溯到数百年前,并随着技术发展和安全需求变化不断演变和升级。20世纪初,银行开始使用入侵报警和视频监控系统,在金库和保管库安装各种入侵探测器,以防止现金和重要物品被盗;在现金交易柜台安装紧急报警按钮,以便发生抢劫、暴力袭击等事件时能够迅速报警,为及时响应争取时间。视频监控系统主要作为报警系统的视频复核手段,可以在发生报警时通过视频图像及时了解现场情况。21世纪初,随着视频监控在公共安全行业的大规模发展和应用,国内的视频监控技术逐渐成熟,涌现了大量的视频监控研发、生产、经销、集成和运营商,视频监控在金融行业的应用也更加广泛,以其实时性和直观性,成为技术防范系统的重要组成部分。但这个时期的视频监控系统主要功能仍然是犯罪威慑、实时监看、寻找线索、固定证据,不能起到主动报警和预警防控的功能。
2000年初,计算机视觉技术迅速发展,目标识别、运动检测、行为分析等开始在特定场景中应用。随着计算机视觉和机器学习算法的发展,特别是深度学习技术的演进,人工智能在视频监控中的应用逐渐深入,人脸识别、行为分析、视频结构化解析等功能变得更加准确和高效。同时,随着各种视频人脸库、车辆库、人员库、物品库等的建立,以及与其他系统平台数据的共享和交换,可以实现跨时空领域的多源数据融合分析,实现对公共安全关注的人员、车辆、物品等对象的主动识别、目标跟踪、行为分析、研判预警。可以说,现阶段的智能视频监控系统,已经从人工搜索发展为机器搜索方式,从过去需要人工被动监看发展到机器主动预警防控。
人工智能、大数据技术是当今信息技术发展的两大支柱,大模型也将在各个行业实现深度应用,随着视频监控系统的智能化程度将越来越高,视频数据将成为最为重要的数据之一。
智能视频分析技术(Intelligent Video Analytics,简称IVA),是指利用计算机视觉和人工智能技术对视频数据进行自动化分析和处理,旨在自动识别、跟踪和理解视频中的对象、行为和场景。视频监控系统由过去需要人工被动监看,发展到今天实现主动预警,依赖于多项关键技术的演进和突破,这些技术共同推动了视频图像智能化分析的发展和应用。
1. 视频图像处理技术
早期的智能视频分析技术主要依赖于传统的图像处理和计算机视觉算法,结合一些基本的统计和机器学习方法,如:使用帧差法、背景减除法用于图像的预处理;使用Canny算法实现图像的边缘监测;使用光流算法来估计图像中每个像素的运动矢量,从而跟踪运动物体;使用隐马尔可夫模型建模和识别时间序列中的模式,如手势识别和行为识别;使用支持向量机(SVM)、决策树、k近邻(KNN)等分类器,根据提取的特征进行事件监测。
早期的智能视频分析技术,可以在底层上对动态场景中感兴趣的目标进行监测、分类、跟踪和识别,在高层上对感兴趣的目标行为进行识别、分析和理解,在一定程度上实现关注目标的自动识别和异常行为分析等。在一些需求明确、场景简单的场所,早期的智能分析系统也得到了一些初步应用,如监狱内为防止服刑人员越狱和群殴事件的发生的越界监测、区域内徘徊事件监测、异常行为识别等;道路交通管理中的违章监测、车流统计、逆向行驶、车牌识别、交通事件监测等;在机场、车站等人员流动性比较大的公共场所的遗弃物监测、徘徊监测等。虽然受限于当时算法的精度和鲁棒性,不能实现大规模应用,但为后来的深度学习和现代智能视频分析技术奠定了基础。
2. 人脸识别技术
人脸识别,特指利用分析比较人脸视觉特征信息进行身份鉴别的计算机技术,人脸特征包括眼、鼻、口、眉、脸的轮廓、形状和位置关系。通过监控摄像机或专用的人脸识别摄像机采集含有人脸的视频流或图像,并自动在视频流或图像中对人脸进行监测、跟踪,对监测到的人脸进行建模和比对。
人脸识别技术经历了从早期的基本方法到现代深度学习技术的显著发展。传统方法通常依赖于特定的几何特征和模板匹配,因此在处理面部表情多样性、光照变化、遮挡物(如眼镜或口罩),以及面部角度等变化时面临显著挑战。2013年微软亚洲研究院的研究者首度尝试了10万规模的大训练数据,并基于高维LBP特征和JointBayesian方法在LFW上获得了95.17%的精度。这一结果表明:大训练数据集对于有效提升非受限环境下的人脸识别很重要。2014年香港中文大学的Sun Yi等人提出将卷积神经网络应用到人脸识别上,采用20万训练数据,在LFW上第一次得到超过人类水平的识别精度,这是人脸识别发展历史上的一座里程碑。深度学习不仅在技术层面上提供了显著的优势,还为人脸识别在更广泛的应用场景中实施和优化提供了强大的支持。
人脸识别算法从实验室到大规模市场应用,虽然经历了漫长过程,但在视频监控系统的智能化应用中扮演了至关重要的作用。由于人是公共安全关注的重点目标之一,通过人脸解析与识别技术,可以实现人员搜索、人员查验、身份确认、嫌疑人布控、可疑行为分析等功能,大幅度提升社会风险的自动预警与安全管控能力。
3. 视频结构化解析
视频内容结构化解析技术是指综合利用数字信号处理、图像理解、模式识别、人工智能等领域的研究成果,在有限的语义和领域知识的辅助下完成对视频信息的内容结构和内容标识的自动识别,以期初步解决视频内容的无结构性问题,为视频内容的进一步检索、浏览和查询提供内容路标。视频结构化解析的目的是通过对视频数据从低层到高层的处理、分析,建立视频数据的语义结构,实现对视频内容有效的组织。
视频结构化解析包括两个步骤。一是视频图像内容分析:对视频图像中的人员、车辆、物体等对象的特征、行为、数量进行监测或识别判断。二是视频图像内容描述:用计算机可识别的、结构化的数据对视频图像内容分析结果进行表述。在《GA/T 1400-公安视频图像信息应用系统》行业标准中,具体规定了行人、车辆、物品、场景结构化描述的具体属性要素,如行人的各种结构化特征属性,包括:上衣、裤子、裙子、鞋子、帽子、太阳镜、墨镜、围巾、皮带、腰带等衣着和装饰物特征;单肩挎包、双肩背包、手提包、拉杆箱、雨伞等携带物特征;头发、面部等人体特征。
视频图像的结构化解析技术,实现了视频关键结构化信息的长久保存,使得人脸、人员、车辆、物品、场景等重要关注目标的查找从人工方式转变到机器搜索方式,大大提高了搜索效率。可以说,当前阶段的视频图像结构化解析技术,是实现视频图像的被动监看转变到视频内容的自动化解译的桥梁,从而实现更高层次的深度分析、预警研判等功能。
4. 多维数据分析模型
依托于人脸识别、结构化解析技术,实现了非结构化视频数据的结构化描述,再结合其他业务数据,可以进行融合时空数据和多维数据的综合研判,从而为特定领域、应用场景设计和构建专业化分析及预警模型。
以视频数据为主,辅以其他业务数据的多维数据分析,当前在社会治安防控体系中的应用较为成熟和广泛。这种综合分析模型首先把各种基础算法分类(如聚类、分类、回归等),按照业务规则形成基础业务模型(如关系分析模型、碰撞关联分析模型、轨迹分析模型),再通过模型组合形成警务技战法,最后提供多维数据分析的应用,目前在大数据+基础防控、大数据+智能交通、大数据+预警预测、大数据+实战指挥、大数据+治理创新等业务中有广泛应用。
1. 根据算法类型分类
根据实现智能视频分析技术的算法类型,可以分为:视频改善、视频分析、视频识别、视频解析、视频检索、轨迹分析、专业建模等。
视频改善是指针对某些不可视、模糊不清,或者是对震动的图像进行部分优化处理,以增加视频的辨认性能。
视频分析是指找出视频中关注目标及其运动属性,如:周界入侵监测、打架斗殴、非法逗留等;或者统计目标出现与消失监测,如:人流量、车流量统计等,从而实现关注目标的异常行为的识别和预警。
视频识别是指对视频中的图像和场景进行分析和理解,以自动监测、识别和分类视频内容,通常包括人脸识别、车辆识别、人体识别、步态识别、物品识别、场景识别等。
视频解析是指视频的结构化解析,通过对视频内容进行分析,将非结构化的原始视频数据转化为结构化的信息,以便于后续的检索、管理和应用。
视频检索是指在大量视频数据中,基于特定的查询条件快速找到目标视频或视频片段,通过视频结构化解析,可以实现基于文本的检索、基于图像的检索、基于特定目标的检索、基于特征点的检索等。
轨迹分析是指利用人员、车辆等对象的时空信息,结合GIS地图服务,提供人员、车辆等视图对象的轨迹线路展示。
2. 根据物理位置分类
从智能视频产品应用的物理位置,可以分为边缘智能和云端智能,也可以称为前端智能和终端智能。
边缘智能是指通过前端摄像机、服务器设备的智能分析算法,实现简单、通用、拥有成熟算法的智能分析功能。实现前端智能相对比较简单,通常选择具有相应智能分析功能的摄像机等产品即可,如:出入口通道选择人脸识别功能的摄像机、人群密集场所选择可以带有计数/密度监测的摄像机、道路交通选择逆行/闯红灯/超速监测的摄像机、周界防控选择越界报警/逗留徘徊功能的摄像机。
云端智能是指在视频监控系统的监控中心,通过建设视频结构化解析平台、视频综合应用平台,以及解析后的各种人脸库、人员库、车辆库、案事件库等,并与其他业务数据系统共享数据,实现更高级别的智能分析和预警防控功能。通过视频图像的实时结构化解析,可以实现人员、车辆、人脸、物品的机器搜索;通过建设人脸库、人员库、车辆库等,可以实现关注目标的轨迹分析;通过与其他数据的融合分析,可以实现更高级别的专业建模,应用于各种复杂场景和任务。如:公安关注的吸毒人员复吸模型、车辆/人员的昼伏夜出模型;智慧社区管理的孤独老人关爱模型、疑似居住未登记人员分析、疑似群租房分析等;金融行业的柜台交易规范化操作监测、现金交接规范化操作监测、安保值守的规范化操作监测、重点关注人员的异常行为分析等。
伴随着人工智能和大数据技术的快速发展,视频监控系统的智能化应用需求程度将越来越高,金融行业不能仅仅停留在前端选择一些具有智能分析功能的摄像机产品,而应该重视系统的顶层设计和规划,内容包括但不限于:云边端结合的系统架构和功能、前端智能和后端智能的合理部署、统一的数据资源池、灵活的算法资源服务、标准的视频数据库、与业务相关联的结构化解析规则、行业知识库、对象的语义结构等。
1. 边缘智能
边缘智能指系统前端设备的智能分析功能,主要是摄像机、NVR和其他小型智能设备的智能分析功能。目前摄像机产品的智能分析功能可分为五类。识别类:人脸识别、车牌识别、物品识别、步态识别、场景识别等;分析类:越界报警、徘徊监测、人员聚集等;统计类:人数统计/报警、车辆统计;监测类:烟雾监测、安全帽监测、异常行为监测等;全结构化解析类。
由于目前各厂家的智能摄像机产品较为成熟和丰富,产品的算法准确度较高,因此在一些典型场所,首先选择带有智能分析功能的摄像机产品,不仅性价比高,且分担了后端计算资源的压力。
智能摄像机产品的选择,不是选择智能分析功能齐全、技术指标先进、价格高的产品就好,而是要针对具体的安全业务,选择相应功能的产品,即先考虑防什么,再考虑怎么防。例如:在出入通道防止人员和车辆的非法入侵,选择人脸、车牌识别功能的摄像机;在人群密集场所、营业大厅、ATM自助银行等地方,防止打架斗殴、人员徘徊、可疑人员逗留、故意破坏等行为,可以选择带有打架斗殴、徘徊监测、长时间逗留、遗留物监测、面部故意遮挡等功能的摄像机;在金库、保管库、数据中心,选择非法入侵、人员异常行为识别(内部人员)、烟雾报警等功能的摄像机。
值得注意的是,目前各厂家的智能摄像机,在社会治安防控、道路交通管理、森林防火等行业,均拥有较为成熟的产品,但专门针对金融行业的成熟产品较少。未来金融行业可以联合算法研发厂家,针对一些场景简单、操作明确的安全需求,研发专业的算法,如现金交接规范化操作监测等。
2. 云端智能
边缘智能只能解决固定场景下,特定目标和特定行为的感知探测,要想真正实现视频数据的解析处理、查询检索、专业建模,实现以数据为驱动的风险感知和预警研判,需要在监控中心建设具有视频解析、数据共享、算法融合的视频综合解析应用平台,同时建设人脸库、人员库、车辆库、案事件库、重要视频资料库,并与其他业务数据系统共享数据,为更高级别的智能化应用积累基础数据。
云端智能视频应用系统的顶层设计非常重要,应按照“开放兼容、分层解耦”的理念,本着资源集约化、功能组件化、能力服务化原则,对系统总体架构及各部分内容进行规划设计,形成完整的视频图像智能应用体系。系统总体架构应包括:基础设施、数据接入、视图解析、数据处理、数据组织、数据分析、数据治理、综合应用、数据安全、运维管理等组成部分;最终通过视频图像数据和其他数据的接入、处理、组织、治理、分析的优化设计,构建视频图像应用的核心数据能力。
2023年被称为“大模型的元年”,2024年则是大模型在各个行业落地应用的关键年。人工智能视觉大模型作为视频处理与理解领域的最新成果,正引领着该领域的快速发展与变革。
人工智能视觉大模型是指基于深度学习技术,特别是大规模预训练模型(如Transformer结构),针对视频数据进行高效建模与处理的框架。这类模型通过在海量的视频数据上进行无监督或弱监督学习,能够捕获视频中的复杂时空信息,实现高精度的视频理解、内容生成及交互控制。相较于传统的小模型,大模型的特点如下。大规模性:模型参数量巨大,能够学习更加丰富的视频特征表示;泛化能力强:经过大规模预训练后,对未见过的视频数据也具有良好的处理能力;多任务兼容:支持视频分类、监测、跟踪、分割、生成等多种任务,实现一模型多用。
然而我们必须清醒地认识到,人工智能视频大模型的落地之路任重道远。社会安全管控是一个对准确度要求非常高的行业应用,距离成熟应用还需要一定的探索时间,智能化转型升级依然需要从规划到实施的长期投入,甚至是重塑业务流程。未来一段时间,大模型与小模型的协同将成为一个重要趋势,大模型将负责提供高级能力和知识,而小模型则专注于处理特定任务,形成端、边、云协同的解决方案。不是所有的应用都要追求“大”模型,需要的是根据自身不同业务场景需求,选择最合适的模型,通过多模型组合去解决实际问题是根本。
处于新旧技术交替的变革时代,科学地进行系统的顶层设计与建设规划变得更加重要,一方面要积极接受和拥抱技术变革,抓住技术变革带来的创新和突破的黄金时期,同时也要预见到新技术带来的不稳定、不成熟和各种潜在风险。
来源:金融电子化