摘要:在智能安防、智慧交通等领域,行人属性识别(Pedestrian Attribute Recognition, PAR)是关键技术之一,旨在从图像或视频中自动识别行人的年龄、性别、衣着颜色、携带物品等属性。传统方法依赖静态图像,但面对遮挡、模糊或动态场景时,效果
一、引言:为何需要视频行人属性识别?
在智能安防、智慧交通等领域,行人属性识别(Pedestrian Attribute Recognition, PAR)是关键技术之一,旨在从图像或视频中自动识别行人的年龄、性别、衣着颜色、携带物品等属性。传统方法依赖静态图像,但面对遮挡、模糊或动态场景时,效果大打折扣。
二、痛点:
- 单帧图像难以捕捉时间维度的信息;
- 现有方法依赖CNN或RNN,全局建模能力不足;
- 大模型全参数微调成本高昂,难以实用化。
三、最新进展:
来自安徽大学与鹏城实验室的团队提出VTFPAR++框架,首次将视频PAR问题转化为视觉-文本多模态融合任务,结合预训练大模型CLIP与创新的时空侧调优策略,显著提升了复杂场景下的识别性能与效率。
四、方法亮点:时空侧调优 + 多模态融合
1. 多模态框架:CLIP赋能视觉与文本对齐
- 视觉分支:输入视频帧,通过CLIP提取时空特征;
- 文本分支:将属性标签(如“年龄
- 融合模块:通过Transformer对齐视觉与文本特征,增强模型对属性的理解。
2. 时空侧调优策略:轻量化高效训练
- 核心思想:冻结CLIP参数,仅优化轻量级侧网络,降低计算成本。
- 空间侧网络:聚合不同层次CLIP特征,增强局部细节建模;
- 时间侧网络:建模帧间时序关系,解决遮挡与模糊问题。
- 优势:相比全参数微调,可减少90%参数量,内存占用降低30%,F1分数提升1.28%。
五、实验结果:性能全面领先
在MARS-Attribute和DukeMTMC-VID两大数据集上,VTFPAR++表现亮眼:
六、关键优势:
- 在“姿态”“运动”等动态属性识别上,F1分数提升超1.5%;
- 支持6帧输入,平衡性能与计算效率。
七、实际应用与未来展望
场景示例:
- 智能安防:快速锁定嫌疑人特征(如背包、上衣颜色);
- 智慧零售:分析顾客属性,优化商品推荐;
- 自动驾驶:预判行人行为,提升安全性。
八、未来方向:
- 引入更轻量化的状态空间模型(如Mamba),进一步降低计算复杂度;
- 支持长视频输入,挖掘更深层次时空关联。
VTFPAR++通过多模态融合与轻量化调优策略,为视频行人属性识别提供了高效可靠的解决方案。这一研究不仅推动了学术进展,更为工业落地开辟了新路径。
论文地址:https://arxiv.org/pdf/2404.17929
来源:新浪财经