摘要:“苏超”激情碰撞,草根足球却常被争议判罚打断节奏?这项AI视觉研究带来了解决方案!论文《Enhancing Soccer Camera Calibration Through Keypoint Exploitation》创新性地利用足球场固有的几何结构(线、圆
【导读】
“苏超”激情碰撞,草根足球却常被争议判罚打断节奏?这项AI视觉研究带来了解决方案!论文《Enhancing Soccer Camera Calibration Through Keypoint Exploitation》创新性地利用足球场固有的几何结构(线、圆、弧),智能“计算”生成多达57个关键点(如线交点、切点),而非仅依赖易错的人工标注或有限视野点。结合深度学习与鲁棒的多阶段标定流程(包括智能选点、迭代优化和异常过滤),显著提升了摄像机标定精度和可靠性。>>更多资讯可加入CV技术群获取了解哦~
“没有假球 全是世仇”,“散装江苏”因“苏超”再次火出圈,网友玩梗玩出新高度。作为大众化体育项目,足球从未与脚下的土地分离,“苏超联赛”将地域文化与足球精神完美嫁接,让每个球迷都能在赛场上找到家乡的归属感。
绿茵场上的每一脚传球、应援席上的每一次欢呼都在续写着城市的新传奇,这正是江苏足球独特的魅力所在。但是低级别联赛乃至国内的裁判执法水平仍然得不到保证,往往会造成比赛断断续续,球员对于裁判的判罚表示不理解,与裁判对峙,球迷往往嘘声四起。为解决这个问题,AI机器视觉往往能很好的帮助裁判进行判罚,如越位,进球,出界等。本文提出了一种新颖且有效的多阶段流程,用于足球转播视频帧中的摄像机标定。我们的方法通过利用足球场固有的结构特征,解决了为准确标定寻找足够数量高质量点对的关键挑战。这包括利用线-线和线-圆锥曲线的交点、圆锥曲线上的点以及其他足球场的几何特征,从而显著增加了可用点数,并提高了准确性和鲁棒性。
论文标题:
Enhancing Soccer Camera Calibration Through Keypoint Exploitation
论文链接:
引言
摄像机标定通过确定摄像机的参数,将录制或转播的视频与真实的物理世界联系起来。这些参数对于将摄像机捕获的2D图像映射到3D世界坐标至关重要,从而实现对场景几何的准确解释。摄像机标定涉及从图像中估计内参和外参,在足球比赛等场景中尤为重要。专业体育分析公司采用的基于视觉的跟踪系统高度依赖准确的摄像机标定。例如,为英超球队提供足球分析服务的Sportlight公司认为,其摄像机标定是保证视频数据准确性的基石之一。尽管摄像机标定在足球中非常重要,但在实现准确和鲁棒的标定方面仍然存在一些挑战。主要困难之一在于检测足够数量的准确点对以用于估计单应矩阵。依赖低层像素信息的传统方法通常容易受到噪声、阴影、光照变化和遮挡的影响。虽然最近的深度学习方法在提取更鲁棒的特征方面显示出有希望的结果,但在泛化能力和充分利用球场结构信息方面仍存在局限性。
本文的主要贡献总结如下:
解决点对稀缺问题:我们提出了一种新方法,克服了在足球转播视频帧中为标定寻找足够数量点对的挑战。该方法利用了足球场的结构特征,包括交点、圆锥曲线和切点。鲁棒的数据处理:我们使用计算得到的关键点,而不是直接依赖标注数据,从而增强了对数据不完美的鲁棒性。此外,我们的摄像机标定方法采用启发式选择预测元素进行标定,即使在深度学习模型输出不完美或不完整的情况下,也能提高预测的可靠性。多阶段标定流程:我们引入了一种多阶段的摄像机标定流程,集成了关键点和线检测模型。这种方法生成了额外的交点,从而实现了更准确的标定。相关工作
体育分析中的摄像机标定技术,尤其是足球领域,近年来发展显著。本节概述了从传统方法到最近基于深度学习的技术的各种方法。
传统方法
足球摄像机标定的早期方法主要依赖于从低层像素中提取特征的计算机视觉技术。这些方法虽然基础,但在实际场景中面临挑战。
尺度不变特征变换被广泛用于关键点检测。SIFT识别独特不变特征的能力使其适用于匹配球场点的不同视角,例如线交点。霍夫变换广泛用于识别图像中的直线,特别适用于检测球场上的标记线。高级最小二乘拟合(ALSF)用于检测弧线并拟合椭圆,适用于识别圆圈和弧线等球场元素。尽管这些方法为体育中的摄像机标定奠定了基础,但它们本质上依赖于低层特征,容易受到光照变化、阴影和遮挡等环境因素的影响。
基于深度学习的方法
深度学习带来了摄像机标定技术的新时代,提供了更鲁棒的特征提取和改进的性能。Homayounfar引入了一种语义分割方法,将像素分类为六种类型之一:垂直线、水平线、边线圆、中圈、草地和观众。与传统线和椭圆检测相比,该方法提供了对球场布局更全面的理解。不仅利用球场标记,还将球员质心作为附加点。尽管创新,但该方法需要多摄像机设置以准确将这些点映射到地面平面,限制了其在单摄像机场景中的适用性。此外,多摄像机所需的复杂设置和标定过程进一步限制了其在许多实际转播场景中的应用。点对数量在摄像机标定中至关重要,因为可以应用拟合算法减少投影误差。为了解决可见球场标记有限的问题,一些研究人员探索了在图像帧外估计消失点。然而,该方法在涉及扭曲视角时难以保证准确性。提出在整个场地上使用均匀网格。尽管这种均匀分布的点可能导致预测中的对齐问题。基于网格的方法基础上,开发了一种实例分割方法,为每个点分配单独的标签。这为网络提供了额外的上下文,可能带来更好的模型。然而,由于网格点不形成线或角,且严重依赖训练数据集,缺乏与球场物理结构的联系降低了其泛化能力。
如果你也想要使用模型进行训练或改进,Coovally——新一代AI开发平台,为研究者和产业开发者提供极简高效的AI训练与优化体验!Coovally支持计算机视觉全任务类型,包括目标检测、文字识别、实例分割,并且即将推出关键点检测、多模态3D检测、目标追踪等全新任务类型。
千款模型+海量数据,开箱即用!
平台汇聚国内外开源社区超1000+热门模型,覆盖YOLO系列、Transformer、ResNet等主流视觉算法。同时集成300+公开数据集,涵盖图像分类、目标检测、语义分割等场景,一键下载即可投入训练,彻底告别“找模型、配环境、改代码”的繁琐流程!
方法
点检测
点、线、圆或椭圆是球场上最显著的特征,广泛用于足球场摄像机标定,尤其是直接使用极值点。然而,使用极值点存在两个问题:一是点的稀缺性,尤其是当摄像机视野未包含许多极值点时;二是精确标注极值点具有挑战性。在本文中,我们的点主要来自线生成的交点。我们利用球场的几何结构提取点。总共,我们在足球场模式上定义了57个关键点。这些点包括:
线-线交点:30个点定义为对标注提供的线点应用线性数据拟合的交点。我们选择线的交点而非线的极值点,因为极值点可能缺失或存在显著的标注误差。采用基于线拟合的两步交点生成过程。首先,我们对每条感兴趣的线使用所有可用的标注点进行线拟合。得到的线方程可以推导出粗略的交点,因为视频帧中的实际线可能由于镜头几何畸变而呈现弯曲而非直线。将标注点拟合为线的统计聚合减少了单个点标注误差对最终交点计算的影响。在第二阶段,粗略交点位置用于为每条线选择几个靠近交点的标注点。然后,将这些点拟合成线以确定精确的关键点位置。这种两步方法有助于更准确地计算交点并过滤一些异常值。
线-圆锥曲线交点:6个点定义为圆锥曲线与线的交点。标注中的圆锥曲线点使用Halif-Flusser的最小二乘椭圆拟合算法拟合成椭圆。交点通过解析椭圆与线的交点方程得出,利用了拟合椭圆和线的方程。
圆锥曲线切点:8个点定义为从已知外部点到椭圆的切线的切点。在许多情况下,可见的交点不足以构建单应矩阵,而圆存在。例如,在仅显示球场中心的帧中,这种情况很常见。为了解决这个问题,我们利用了从已知点到圆的切线的切点之间的对应关系,增加了可用于构建单应矩阵的点。足球场线的交点被用作已知的外部点,切线应通过这些点。这些点的真实世界坐标被推导为通过给定外部点和相应圆的直线的切点。这利用了投影变换保持切线的特性。注意,计算忽略了镜头几何畸变的影响。
附加结构点:使用上述子集的点创建的单应矩阵,我们沿球场纵向轴线添加了9个点(包括球场中心和罚球点),以及中圈上的4个四分之一转折点。这种方法将单应矩阵应用于所需关键点的子集,利用了相应的真实世界点。它还允许包含缺失的点,例如当标注中遗漏线时。
线检测
除了利用提取的点外,我们还解决了左右模糊性的挑战。在摄像机对齐与球场长轴方向一致的场景中,在没有时间上下文的情况下准确区分左右两侧变得困难。然而,在模型训练中为地面真实值建立明确的区分至关重要,尤其是当两个球门都可见时。如果不解决这种模糊性,模型可能无法确定关键点(例如门柱的角落)是在球场的左侧还是右侧,可能导致在同一空间位置同时预测左右关键点。
我们实施了一个重映射过程以解决这种左右模糊性并确保一致性。将点重新映射,使最靠近摄像机的球门区域始终被视为左侧。
实验
在某些情况下,交点足以进行可靠的标定,但我们发现添加额外的点实际上会降低标定准确性。此外,在一些罕见情况下,一些预测点是异常值。过滤这些点有可能提高摄像机参数的准确性。
为了利用这些观察结果,摄像机标定过程在预测置信度高于优化阈值的关键点子集上重复进行:
仅线-线交点关键点
使用RANSAC过滤潜在异常值后的地面平面关键点(无法通过单应重投影以5像素容差拟合的地面平面点被排除)
地面平面上的所有点
包含横梁上关键点的子集使用OpenCV多平面算法处理,其余使用标准OpenCV标定方法处理。球场模式的已知尺寸使得可以使用模式重投影作为评估预测摄像机参数正确性的鲁棒内部标准。通过基于球场模式重投影的均方根误差(RMSE)的投票过程确定最终的摄像机标定值。选择导致最低RMSE的摄像机参数集作为最终预测,如果RMSE值小于5像素,则优先选择基于所有检测点的参数(以下简称投票器)。
为了进一步利用基于子采样预测点和在可能的情况下使用可靠关键点子集的方法,我们实现了迭代投票器算法。该算法迭代上述投票器过程,使用预测置信度高于三个阈值级别的点,并选择从具有最高置信度的点获得的摄像机参数集。关键点检测置信度阈值使用Optuna优化,以最大化验证数据集上的Score值。
最后,我们融合了线预测模型的结果:当图像内可用的预测关键点数量不足时,即使超出图像边界的预测线交点也被考虑。这也允许添加点模型遗漏的点。
对于所有标定算法,如果基于以下简单启发式阈值,摄像机标定结果被认为不现实,则完全丢弃。如果结果表明摄像机低于地面(或高于地面100米以上),在任一空间维度上距离球场中心超过250米,或者镜头焦距超出[10,20000]像素范围,则认为摄像机不合理。
消融实验
本节研究了所提关键点及算法决策对相机标定流程的影响,实验结果基于SoccerNet 2023数据集获得。
生成关键点的影响
通过使用指定关键点子集训练检测模型,评估了不同关键点的作用。本阶段采用三平面标定算法,以平衡算法复杂性与通用性。
额外关键点能提升预测完整性,使相机标定在更具挑战性的场景(如可见交点不足时)成为可能。值得注意的是,仅使用交点时Acc@5指标达到最佳,这可能因为交点是足球场上几何标记最清晰的特征,神经网络能更明确、更准确地预测。而切点与通过单应性投影添加的额外点缺乏明确标记,且生成方法的特性可能导致标注精度较低。但同时,额外关键点显著提升了完整率,使更多样本能够完成标定,从而提高了综合Score指标。
相机标定算法比较
展示了不同标定算法对模型预测的影响:
多平面标定相比基准算法显著提升了精度,这验证了将非平面点纳入标定流程的积极意义。改进源于视频帧中横梁通常高于地面关键点的垂直分布特性,这种空间分布扩大了标定点的覆盖范围。
Voter算法自适应选点进一步提高了精度,但以降低完整率为代价。该算法会丢弃置信度低于阈值的预测点,而RANSAC剔除异常点与重投影RMSE筛选机制确保了参数选取的可靠性。
迭代式Voter解决了原算法可能导致的CR下降问题:当高置信度点不足时,逐步纳入低置信度点,实现了精度与完整性的平衡。
线模型整合最终提升了完整率,使综合Score进一步提高。集成所有启发式优化的算法被用于SoccerNet 2023相机标定挑战赛的最佳提交方案。
无需代码,训练结果即时可见!
在Coovally平台上,上传数据集、选择模型、启动训练无需代码操作,训练结果实时可视化,准确率、损失曲线、预测效果一目了然。无需等待,结果即训即看,助你快速验证算法性能!
从实验到落地,全程高速零代码!
无论是学术研究还是工业级应用,Coovally均提供云端一体化服务:
免环境配置:直接调用预置框架(PyTorch、TensorFlow等);免复杂参数调整:内置自动化训练流程,小白也能轻松上手;高性能算力支持:分布式训练加速,快速产出可用模型;无缝部署:训练完成的模型可直接导出,或通过API接入业务系统。平台链接:
无论你是算法新手还是资深工程师,Coovally以极简操作与强大生态,助你跳过技术鸿沟,专注创新与落地。访问官网,开启你的零代码AI开发之旅!
结论
本文提出了一种新颖且有效的多阶段流程,用于足球转播视频帧中的摄像机标定。我们的方法通过利用足球场固有的结构特征,解决了为准确标定寻找足够数量高质量点对的关键挑战。这包括利用线-线和线-圆锥曲线的交点、圆锥曲线上的点以及其他足球场的几何特征,从而显著增加了可用点数,并提高了准确性和鲁棒性。
我们通过线和圆锥曲线拟合解决了不完美标注的问题,采用深度学习技术进行关键点和线检测,并结合基于真实球场尺寸的几何约束。融合了非平面点,并利用投票算法迭代选择最可靠的关键点进行标定,进一步提高了准确性,并优化了完成率与准确性之间的权衡。 结果突显了将领域知识和结构洞察集成到摄像机标定流程中的重要性。我们的方法表明,相对少量的战略性定位关键点,结合相对简单的深度学习架构和有效的启发式后处理,可以实现比更复杂方法更优越的结果。
来源:小码科普君