地名地址数据采集中的关键难点与解决措施探讨

B站影视 2025-01-23 17:47 2

摘要:地名地址数据作为最常用的基础公共信息资源,其准确性在智慧城市项目的建设中尤为重要。目前,地名地址基础数据存在收集困难、采集效率低、数据质量差、采集效果不理想等问题,针对以上问题,该文提出使用高精度POS的航摄无人机航测技术,高效地解决了工作底图的收集、图纸现势

江西地名研究

摘要:地名地址数据作为最常用的基础公共信息资源,其准确性在智慧城市项目的建设中尤为重要。目前,地名地址基础数据存在收集困难、采集效率低、数据质量差、采集效果不理想等问题,针对以上问题,该文提出使用高精度POS的航摄无人机航测技术,高效地解决了工作底图的收集、图纸现势性和位置精度的问题;利用手持移动终端实现了影像快速采集,避免了纸张打印的浪费;同时使用C#图形化编程软件自动化识别影像文字,提高了录入地名地址点名称属性的效率并保证了准确性。研究结果可以为以后的地名地址数据采集提供参考。

关键词:地名地址;数据采集;无人机;光学字符识别(OCR)技术

引言

地名地址数据是地理空间框架数据库的重要组成部分,是对地名、地址信息的结构化描述与标识,是带有空间坐标的地名地址数据,并以坐标点位的方式描述某一特定空间位置上自然或人文地理实体的专有名称和属性,用以满足各种专题信息空间定位要求,最终成果能够为“天地图”平台所应用,为政府和民众提供准确、全面的地名地址信息,在规划、导航、物流等行业得到应用。地名地址点是现实世界地理实体的真实反映,人们日常中的寻址问路、衣食住行都离不开地名地址点信息,同时旅游、医疗、扶贫、养老、优抚和就业等政府便民惠民工作也离不开地名地址点的支撑。数据的质量直接影响城市管理的方方面面。

如何保证地名地址的准确性和现势性,同时还能实现对地名地址点的管理就成为重要难题。本文归纳了地名地址采集过程中遇到的问题,并提出解决措施,以便于指导技术人员采集地名地址数据。

1 地名地址采集中遇到的问题

地名地址采集中遇到的问题主要有以下几个方面:(1)城市较大,工作底图收集困难,不但收集缓慢,还容易缺失不完整。城市变化较快,工作底图更新不及时,局部区域现势性不能满足地名地址点定位要求。(2)地名地址采集一般采用现有的1:500地形图作为工作底图,技术人员打印纸质工作底图和调查表,标注位置、名称、门牌等信息,并进行拍照。大量的纸质工作底图和调查表携带不方便且浪费纸张,而且在后期坐标转注的时候位置坐标容易出错并产生极大的工作量。(3)内业处理地名地址点名称属性时,需将图片上的文字属性手工录入地名地址库,耗时耗力,效率低、成本高,准确性得不到保障。

2 解决办法

针对以上问题,本文根据多年工作时间的经验,总结出以下解决办法。

2.1 无人机技术应用

随着无人机系统技术、传感器技术和人工智能算法等相关技术的不断发展,无人机路径规划技术和三维模型技术在测绘生产中不断发展并被广泛应用。利用高精度POS设备能够在无像控的情况下,完全满足大比例尺成图精度要求。本文基于高精度POS的航测无人机进行测区影像采集,以高航高、较低重叠度,高效获取正射影像,制作三维模型并生成真正射影像(True Digital Orthophoto Map,TDOM)数据。

本文以大疆精灵4RTK无人机为例,测区约4km2,结合相机参数按照相对航高500m,地面分辨率13.7cm,旁向重叠度60%,航向重叠度70%,以连续运行参考站(Cross-Origin Resource Sharing,CORS)作为差分起算数据。共拍摄303张照片,航测结束后,仅添加3个像控点校正坐标,利用重建大师建模软件生成TDOM数据,外业安排作业员实地采集30个明显特征点作为检查点进行精度检查(见图1)。

本次试验对选取的30个明显特征点作为检查点进行精度比对,检查点平均平面误差0.327m,最大平面误差0.590m。根据检查点误差的分析,充分验证了该方法能满足地名地址工作底图的精度和现势性,且效率高。

2.2 手持移动端辅助作业

针对传统地名地址采集过程效率低下、内容烦杂、定位精度不高、数据转换复杂等问题,可以使用移动终端数据采集系统,以外业精灵软件为例,配合图新地球软件、ARCGIS软件,对外业的数据进行手持移动终端采集,并将地名地址点位置信息和属性匹配进数据库。在移动端实现外业信息的采集和现场照片的拍摄,避免图纸打印的浪费与不方便,实现了矢量、属性、附件导出一体化的采集模式,节约作业成本与时间,提高外业采集工作的准确性、及时性和规范性。具体操作流程如下。

2.2.1 数据准备

(1)采用重建大师建模软件生成项目区域正射影像图,通过ARCGIS软件的数据管理工具-栅格处理-裁剪功能按作业区块对影像进行裁剪(见图2)。

(2)使用图新地球软件中的数据转换-影像批处理功能,将数据量较大的TIF格式正射影像文件转换为可以在移动端外业精灵App中加载的数据量较小的MBT格式正射影像文件(见图3)。

(3)将MBT格式正射影像文件导入到移动端外业精灵App中。可以采用多种导入方式,包括USB传输、微信文件导入、QQ文件导入等。

2.2.2 外业采集

在移动端外业精灵App中加载外业区块的正射影像图,利用手机GPS定位和正射影像底图,拖动软件中心的蓝色十字光标,使中心点对准地名地址点、兴趣点挂牌位置,点击下方打点按钮进行标记打点,点击下方照相机图标调用手机相机对相关信息拍照保存。外业只进行拍照作业,属性通过内业输入,极大地提高了外业作业效率。

2.2.3 数据转换

外业精灵App默认导出SHP格式文件,通过ArcGIS自带的ArcCatalog管理器将地名地址点的地理位置标识点导入到地名地址标准数据库中。

2.3 文字识别系统开发

地名地址外业调查通常需要外业人员实地定位,拍摄相关照片并录入相应信息。这个流程对外业人员来说是相当繁重的,人工采集的错误率较高。许多信息都可以通过照片识别获取,因此解决外业照片文字识别问题将极大地提升地名地址外业效率,外业人员可以简化流程,只需拍摄照片即可,大大减轻了工作负担,同时也提高了调查数据的准确性和及时性。本文基于C#开发的小程序进行图片识别(见图4)。

OCR(Optical Character Recognition)技术,中文名称为光学字符识别技术,是一种光学检测与计算机相结合的技术,通过检测图像明暗的模式确定形状,再通过字符识别方法将形状映射到计算机中字符的过程。包括预处理、字符分割、字符特征提取、再分类和后处理等步骤。

PaddleOCR是百度深度学习的开源OCR项目,包含一整套实用的OCR工具库。有丰富的文本检测、文本识别算法,还提供了预训练深度学习模型,使用户能够更加快速地应用深度学习OCR技术解决实际问题。

使用C#图形化编程软件,设计一个用户友好的界面,其中包括一个显示兴趣点列表框。通过读取外业精灵采集数据导出的关联文件,获取外业人员标记的兴趣点和相关照片数据,并将这些数据加载到列表框,提供直观的兴趣点数据管理方式。图片显示框显示当前选择兴趣点的相关照片,利用C#File类读取相应的照片文件,并将其显示在图片框中,内业人员可以快速浏览和分析现场采集的照片内容。通过百度飞桨PaddleOCR开源模块实现文字识别功能,利用C#NuGet包管理器安装PaddleOCRSharp,快速集成到系统中。

初始化识别引擎:

OCRModelConfigconfig=null;

OCRParameteroCRParameter=newOCRParameter;

OCRResultocrResult=newOCRResult;

PaddleOCREngineengine=newPaddleOCREngine(config,oCRParameter);

识别照片内文字,赋值相应文本框内。ocrResult=engine.DetectText(imagebyte);richTextBox1.Text=ocrResult.Text;

照片中的文字被识别后,内业人员将其相关文字复制到相应的属性字段中,包括地名地址、电话、证件号等重要信息。这样一来,提高了内业工作输入效率和准确性,经过项目的测试。印刷体汉字识别基本能达到完全正确,对于手写和潦草汉字识别率也能达到70%以上,对可能的识别误差。内业人员也可以在文本框直接编辑。对于大量地名地址点名称的录入,OCR汉字识别效率与识别率都很高,提高了属性录入的效率和内业数据处理的准确性,改善了地名地址调查工作的流程和质量,使得调查工作更加高效、精确。随着卷积神经网络、循环神经网络、深度置信网络等各种深度算法的改进,OCR汉字识别效率还能进一步提升。

3 结论

地名地址数据库是智慧城市建设的一个重要环节,可以为民众日常出行提供精准的定位信息。面对海量的地名地址数据,必须快速地采集并保证数据质量。本文详细介绍了地名地址数据的采集与建库流程中遇到的问题,通过高精度POS的航摄无人机航测技术高效解决了工作底图的收集、图纸现势性和位置精度的问题,利用手持移动终端实现了影像快速采集并避免了纸张打印的浪费,同时通过使用C#图形化编程软件实现了影像文字的自动化识别,提高了录入地名地址点名称属性的效率并保证了准确性。本文为其他地区的地名地址数据采集与建库提供了思路与方法。

作者:张盼兴 边瑜

选稿:江西地名研究小组

编辑:杨 琪

校对:杜佳玲

审订:耿 曈

责编:欧阳莉艳

来源:晓加论科技

相关推荐