摘要:第20届国际计算机视觉大会(ICCV 2025)于2025年10月19日- 10月23日在美国夏威夷举办。International Conference on Computer Vision(ICCV)是计算机视觉领域的CCF A类顶级国际会议。
第20届国际计算机视觉大会(ICCV 2025)于2025年10月19日- 10月23日在美国夏威夷举办。International Conference on Computer Vision(ICCV)是计算机视觉领域的CCF A类顶级国际会议。
据ICCV官网显示,ICCV 2025 共收到11239 份投稿,最终录用2698篇,录取率为 24%。北大王选所胡玮、刘洋、陈文拯、匡浩玮、罗宇轩、徐昆仑、徐铸、杨德杰、艾子翔、周啸宇等师生前往美国夏威夷参加了本次会议。
王选所师生部分参会照片
近期,我们将对北大王选所师生在ICCV 2025发表的研究成果进行简要介绍(按照第一作者姓氏笔画顺序排序),欢迎大家讨论交流。
1.实现鲁棒分析点云分析的统一点级提示(UPP: Unified Point-Level Prompting for Robust Point Cloud Analysis)预训练的点云分析模型已在各种下游任务中取得了令人瞩目的进展,但其有效性通常会因低质量点云(即存在噪声和不完整性)而受损。在真实场景中,由于常见的物体遮挡和3D传感器采集的数据质量不佳,低质量点云是一个普遍问题。 为此,现有方法主要通过开发专门的去噪和补全模型来提升点云质量。然而,由于点云增强与下游任务相互脱节,这些方法在多样的真实世界应用场景中往往表现不佳。此外,去噪和补全任务之间相互冲突的目标,也进一步限制了集成范式(ensemble paradigm)在保留关键几何特征方面的能力。
为应对上述挑战,我们提出了一种统一的点级别提示(Point-Level Prompting)方法。该方法将点云去噪和补全重构为一种提示机制,从而能够以参数高效的方式实现鲁棒的分析。我们首先引入一个“修正提示器”(Rectification Prompter),通过预测修正向量提示来适应噪声点,从而有效滤除噪声,同时保留对于精确分析至关重要的复杂几何特征。接着,我们进一步引入一个“补全提示器”(Completion Prompter),它基于经过修正的点云生成辅助点提示,以提升模型的鲁棒性和适应性。最后,我们利用一个“形状感知单元”(Shape-Aware Unit)模块,来高效地整合并捕获经过滤波处理的几何特征,以服务于下游的点云分析任务。
在四个数据集上进行的大量实验表明,与现有的最先进(state-of-the-art)方法相比,我们的方法在处理含噪和不完整的点云数据时展现出更强的优越性和鲁棒性。
我们的代码目前已经开源在:
zhoujiahuan1991/ICCV2025-UPP。
论文第一作者为艾子翔(北大王选所),论文通讯作者为周嘉欢(北大王选所),合作作者包括崔振宇(北大王选所)、彭宇新(北大王选所)。2.基于掩码补偿的跨粒度在线优化方法(Cross-Granularity Online Optimization with Masked Compensated Information for Learned Image Compression)基于数据先验的智能图像压缩方法通过利用图像数据的统计特性与内在结构,实现了对图像内容的精准建模与高效压缩。然而,当前基于深度学习的图像压缩方法普遍存在摊销效应问题,即在训练过程中难以完全捕捉到图像中的所有细节信息,导致在压缩过程中出现信息丢失或失真。针对这一问题,本文创新性地提出了一种跨粒度在线优化策略,旨在通过联合优化全局分布与局部分布,解决基于深度学习的图像压缩中普遍存在的摊销效应问题。在粗粒度优化层面,本文采用基于自适应二次规划的梯度下降法,以最小化图像层面的分布差异。该方法通过动态调整优化策略,能够更好地适应不同图像内容的复杂变化,从而实现更高效的压缩。在细粒度优化层面,本文则通过掩码稀疏补偿技术,在带宽限制条件下有选择性地恢复结构细节。该方法通过识别图像中的关键区域,并针对这些区域进行精细化补偿,能够有效保留图像中的细粒度信息,提高重建图像的视觉质量。大量的实验验证了本文方法的优越性。
论文项目主页:
论文第一作者为匡浩玮(北大王选所),论文通讯作者为刘家瑛(北大王选所),合作作者包括杨文瀚(鹏城实验室)、郭宗明(北大王选所)。3.基于交互感知提示与概念校准的开放词汇人物交互检测(Open-Vocabulary HOI Detection with Interaction-aware Prompt and Concept Calibration)开放词汇的人物-物体交互(HOI)检测旨在识别图像中人和物体之间的交互关系,同时能够推广到训练集中未出现的新交互类别。现有方法通常依赖视觉-语言模型,但由于图像编码器效果有限而面临挑战——因为基于整图的预训练无法很好地适应 HOI 所需的细粒度区域级交互检测。此外,有效编码视觉外观的文本描述仍然困难,限制了模型捕捉细节化 HOI 关系的能力。为了解决这些问题,我们提出了 INP-CC(Interaction-aware Prompting with Concept Calibration),这是一种端到端的开放词汇 HOI 检测器,结合了交互感知提示生成和概念校准机制。具体而言,我们设计了一个交互感知的提示生成器,可根据输入场景动态生成一组紧凑的提示,从而在相似交互之间实现选择性共享。该机制使模型的注意力集中在关键的交互模式上,而非泛化的图像级语义,从而提升了 HOI 检测性能。此外,我们通过语言模型引导的概念校准机制来优化 HOI 概念表示,利用结构化语义知识区分多样的 HOI 概念。同时,引入负采样策略以改进跨模态相似性建模,使模型能够更好地区分在视觉上相似但语义上不同的动作。大量实验结果表明,INP-CC 在 SWIG-HOI 和 HICO-DET 数据集上均显著优于当前最先进的模型。
论文第一作者为雷廷(北大王选所),论文通讯作者为刘洋(北大王选所),合作作者为殷绍峰(北大王选所)。4.CalliReader: 基于对齐嵌入视觉语言模型的中文书法篇章情境化解读(CalliReader: Contextualizing Chinese Calligraphy via an Embedding-Aligned Vision-Language Model)中国书法作为联合国教科文组织认定的世界非物质文化遗产,因其视觉与文化复杂性而长期成为人工智能难以攻克的领域。现有智能系统在理解书法作品时普遍表现不佳,主要原因在于标注数据稀缺以及视觉与语义之间缺乏有效对齐。为此,我们提出 CalliReader,一种面向中国书法情境化理解(Chinese Calligraphy Contextualization, CC2)问题的视觉语言模型(VLM)。该模型包含三项核心创新:一是 字符切分(character-wise slicing),实现精确的书法字符提取与顺序恢复;二是 CalliAlign,通过视觉与文本标记压缩实现高效语义对齐;三是 嵌入式指令微调(embedding instruction tuning, e-IT),在提升跨模态对齐能力的同时,有效缓解数据稀缺带来的挑战。我们同时构建了 CalliBench,首个面向整页书法情境化理解的基准数据集,针对以往OCR与VQA方法中普遍存在的上下文割裂、推理浅层与幻觉严重等问题进行了系统改进。大量实验与用户研究表明,CalliReader 在页级书法识别与理解任务上不仅显著优于现有最新方法,甚至超越人类专家,取得了更高的准确率并有效降低幻觉现象。与推理型模型的对比结果进一步表明,准确识别是可靠理解的前提。此外,定量分析验证了 CalliReader 的高效性,而在文档及真实场景数据集上的测试也充分证明了其优异的泛化能力。
论文项目主页:
论文第一作者为罗宇轩(北大王选所),论文通讯作者为连宙辉(北大王选所),合作作者包括汤家淇(北大元培)、黄晨毅(北大元培)、郝飞洋(西安交通大学)。5.基于新旧知识协同引导原型自强化的半监督终身行人重识别(Self-Reinforcing Prototype Evolution with Dual-Knowledge Cooperation for Semi-Supervised Lifelong Person Re-Identification)当前的终身行人重识别方法主要考虑处理完全标注的数据流。然而,在现实场景中,标注资源往往有限,造成仅有少量训练数据被标注,即半监督学习场景。现有的终身行人重识别方法即使结合了半监督策略,也易在未标注数据利用过程中受到噪声知识的干扰,难以适应持续新增的数据。本文开创性地研究了半监督长时行人重识别问题,提出了一种基于新旧知识协同引导原型自强化的半监督终身行人重识别。我们的核心创新在于构建了一个动态原型引导的伪标签生成与新旧知识协同净化的自强化循环。具体而言,我们引入可学习的身份原型来动态捕捉身份分布并生成高质量伪标签。随后,通过双重知识协同机制融合当前模型的专业性和历史模型的泛化性,对噪声伪标签进行精细化处理。通过这种循环设计,可以逐步挖掘可靠的伪标签,提升当前阶段的学习效果,并确保在终身学习过程中实现正向知识传递。在本文构建的半监督终身行人重识别基准测试上的实验表明,本文提出的方法取得了先进的性能。
论文项目主页:
论文第一作者为徐昆仑(北大王选所),论文通讯作者为周嘉欢(北大王选所),合作作者包括卓凡(西电)、李江梦(软件所)。6.基于Q模型的前瞻性视觉语言导航(NavQ: Learning a Q-Model for Foresighted Vision-and-Language Navigation本文聚焦于目标导向的视觉语言导航(Vision-and-Language Navigation, VLN)任务。现有方法往往依赖历史观测信息进行决策,而忽视了行动的未来结果和长程影响。为突破这一局限,我们的目标是构建一个具备前瞻性的智能体。具体而言,我们借鉴强化学习中Q学习(Q-Learning)的思想,利用大规模无标注的轨迹数据训练一个Q模型,以学习室内场景中关于布局和物体关系的通用知识。该模型能够为每个候选动作生成一个Q特征(Q-feature),类似于传统Q网络中的Q函数值,用于以聚合特征的形式描述执行该动作后可能观测到的潜在未来信息。随后,一个跨模态的未来信息编码器将任务无关的Q特征与导航指令进行融合,生成一组针对当前任务的、反映未来前景的动作评分。这些评分再与基于历史信息得到的原始评分相结合,从而实现了一种由A*搜索启发的导航策略,以更高效地探索那些更有可能通向目标区域的路径。我们在主流的目标导向VLN数据集上进行了实验,结果验证了所提出方法的有效性。
论文项目主页:
论文第一作者为徐沛然(北大王选所),论文通讯作者为穆亚东(北大王选所),合作作者为宫西诚(北大信科)。本文来自【北京大学】,仅代表作者观点。全国党媒信息公共平台提供信息发布及传播服务。
来源:人民日报党媒平台
