兰州交通大学颉旭康:融合自适应定权和偏差匹配的多源卫星测高数据水位提取算法 |《测绘学报》2024年53卷第11期

B站影视 2025-01-15 05:09 3

摘要:利用卫星测高技术提取湖库水位信息时,融合多种卫星测高数据构建长时序和高精度的水位尤为重要。本文以青海湖为例,选取Envisat、SARAL、Sentinel-3A和Sentinel-3B这4颗测高卫星数据,基于不同数据源结果及其特征构建了20 a时长的数据集,

本文内容来源于《测绘学报》2024年第11期(审图号GS京(2024)2421号)

融合自适应定权和偏差匹配的多源卫星测高数据水位提取算法

颉旭康

1,2,3, 李伟,1,2,3

1.兰州交通大学测绘与地理信息学院,甘肃 兰州 730070

2.

3.

作者简介

第一作者:颉旭康(1999—),男,硕士,研究方向为卫星大地测量与水文学。 E-mail:

通讯作者: 李伟 E-mail:geosci.wli@lzjtu.edu.cn

摘要

利用卫星测高技术提取湖库水位信息时,融合多种卫星测高数据构建长时序和高精度的水位尤为重要。本文以青海湖为例,选取Envisat、SARAL、Sentinel-3A和Sentinel-3B这4颗测高卫星数据,基于不同数据源结果及其特征构建了20 a时长的数据集,提出了融合自适应定权和偏差匹配的多源卫星测高数据水位提取算法,其中自适应定权能根据不同场景选择适当的改正算法模型,并为多源测高参数确定不同的权重参数,从而统一数据。偏差匹配方法则最大程度将定性数据定量化,使水位提取更准确。同时建立了人工智能框架实现了水位提取的自动化和一体化。试验显示,经过自适应定权的多源测高特征值可以被合理分类且具有强相关性,可为构建长时序水位信息提供整体高精度的基础数据;结合偏差匹配方法,以天为尺度提取的水位和实测水位相关系数R2在0.9以上,若将相关系数R2阈值设为0.8,可单次提取5个月时长的水位。结合单天提取和多天提取提出长期提取方法,构建了12 a的长时序水位,其相关系数R2在0.9以上,平均绝对误差(MAE)值在1.5~2.0 cm之间,均方根误差(RMSE)值在2.0~2.5 cm之间,成功构建了长时序和高精度的水位。鉴于此,该数据处理算法和构建的模型在水位信息提取及预测方面体现出一定的实用价值,其研究成果也印证了人工智能与卫星测高相结合在小尺度水域构建长时序高精度水位的可行性。

关键词

多源卫星测高自适应定权偏差匹配数据集构建青海湖水位

基金项目

本文引用格式

颉旭康, 李伟.

XIE Xukang, LI Wei.

阅读全文

水位变化是湖库监测的基础指标之一[1-2]。近年来,卫星测高技术在内陆水体监测领域的应用愈发广泛,从最初的海洋研究延拓到了内陆水域的应用中[3-4],逐渐展现出在湖库水位监测上的潜力,且取得了众多成果和应用[1-2]。随着测高卫星数据的逐渐增多,湖泊水位已从单颗测高卫星短时序提取转变为多源测高卫星长时序提取,同时在构建长时序水位信息的过程中,如何提取高精度的长时序水位也受到了诸多关注,其数据的可用性与有效性仍存在诸多未知因素[5-6]。文献[5]的研究结果显示,相较于上一代测高卫星(如TP、Jason-1、ERS-2和Envisat),其数据显示出更高的不可用率和更低的有效观测率,拥有开环跟踪模式的近一代卫星(如Jason-3和Sentinel-3)数据可用性则显著提升,并提供了更为精确的测量数据。而文献[6]的结果则表明,近实时(near real-time,NRT)产品数据的水位测量效果与延迟产品几乎相当。具体而言,Sentinel-3A和Sentinel-3B的中位数均方根误差(root mean squared error,RMSE)分别为21.5和23.5 cm,相较于实测水位的RMSE值分别为52.5和59.0 cm。同时,卫星测高与遥感影像、卫星重力等多源技术的联合也获取了很多水文信息。文献[7]结合卫星重力和卫星测高对南极冰川的历史和地球动力学提出了一种见解。文献[8]结合GRACE重力测量与ICESat等测高数据研究了南极冰盖的质量平衡。进而,随着人工智能与地球科学的结合日益紧密,众多研究成果也验证了卫星测高与人工智能结合在大尺度水域应用的可行性,并有望在重力恢复中取得更多进展[9-10]。

国际卫星测高团队提出使用集成测高数据和相关数值模型结合人工智能概念的研究思路,即使用人工智能相关工具来操作、处理和解释测高数据[11]。人工智能技术可以简化过于复杂而无法用于时间和空间分析的算法,同时可以在分析中考虑更好的物理特性,提供一些必要的辅助信息[12],如构建雷达数据集和精细化的水位影响因素数据集。卫星测高数据反演内陆湖泊时受到陆地污染的可能性极大,常用修正方法是波形重构[13],但不同的重构方法计算的结果也存在差异化,需要合理选择[14]。内陆水域的测高参数反演时也具有差异性,在精确计算水位时,需要有一定的人工经验来合理选择和利用这些参数,人工智能可以替代人工经验,耗费成本更低且效率更高。通过建立人工智能框架解决这些测高参数的合理选择问题,可以有效控制变量参数的模拟误差,为后续的模型输入要素提供了较为稳定的结果[15]。在人工智能中,深度学习算法在各领域得到了快速发展,其中卷积赋权是重要基础之一;在大地测量领域,经常使用定权解决误差赋配的问题,所以本文以权作为连接卫星测高和人工智能的切入点进行研究工作。在高度测量数据处理中,以往的研究多以近似的方式使用了正高,大地水准面误差与其他误差源未改正,可能会给水位估算带来一定的偏差[16-17],而在多源卫星测高数据处理中,基于这种高程系统转换方法构建的长时序水位信息就会出现误差累积,导致误差的不确定度会逐步增大[17],本文提出自适应定权方法解决该问题,衡量多源数据参数的重要程度,为构建整体高精度的基础数据提供基本计算方法。使用卫星测高数据提取水位时,电离层、极潮等相关参数可以通过定量数据进行衡量,但是湖泊的潜在蒸散、人类活动等因素缺乏定量的数据,这对于高精度提取水位构成了挑战[18],目前重跟踪算法也无法解决这一问题,本文提出偏差匹配来解决该问题,该方法是相比于重跟踪算法得到更高精度水位的关键。本文提出了融合自适应定权和偏差匹配的数据处理算法,使用Envisat、SARAL、Sentinel-3A和Sentinel-3B 4颗测高卫星的数据、Envisat模拟数据、青海湖的实测水位和部分模拟实测数据构建了2002—2021年间的时序数据集,最终获取长时序和高精度的水位信息。

1 数据和算法1.1 数据1.1.1 试验区域和时段

本文试验区域选取中国青海省境内的青海湖(99°36′E—100°16′E,36°32′N—37°15′N),湖水面积近4300 km2,青海湖水位变化主要受气候干湿交替因素控制,降水量是最主要的因素,地表径流和地下水补给也起着一定作用。选取Envisat、SARAL、Sentinel-3A(S3A)、Sentinel-3B(S3B)4颗测高卫星的数据(图1),水文站的实测水位由青海省水利厅下社站提供,由青海湖下社站监测得到。时段选取20 a,时间尺度长,数据量大,可以使本文自适应定权和偏差匹配的结果更精准;覆盖4颗新旧卫星,使算法可以适应不同卫星精度;添加模拟数据,使算法对不同来源的数据具有更强的适应性。本文的数据集构建主要使用了4部分。①实测数据:通过青海湖下社站监测得到,以单日为尺度,精度高,作为试验的先验信息。②模拟数据:补充缺失的测高数据和实测水位数据,同时为偏差匹配方法提供一种替代方案。③Level 2 GDR(geophysical data record)和SGDR(sensor GDR)的原始数据(按天为尺度计算的中位数和平均值):因为实测水位数据是以单日为尺度的,所以将未经处理的原始测高数据按日计算平均值和中位值,作为试验的基本特征量;该部分数据由CTOH(Center for Topographic studies of the Ocean and Hydrosphere)和AVISO(CNES data center for Altimetry and DORIS products)机构提供。④根据不同重跟踪算法改进得到的参数值:选择Ice1、Ocean、Sea-ice等重跟踪算法改正参数,不同的重跟踪算法得到的改正参数值适合于不同的场景,提高本文算法的自适应性。

图1

图1 研究区域和测高卫星数据的时空信息

Fig.1 Study area and data spatio-temporal information

1.1.2 数据集构建

选取GDR和SGDR原始数据、不同重跟踪算法改正得到的参数值等定量数据,使用不同数据源特征和结果的两种策略共同构建基础数据集,为了使权重和偏差值自适应性更强,模型普适性更强,数据集构建时不仅引入了基础数据集,还加入了模拟数据,用于弥补缺失数据和数据替代方案,提升模型的稳定性和应用性(表1)。使用Ice1重跟踪算法对4颗卫星提取的水位数据进行了修正,通过高程基准转换进行高程系统之间的局部融合得到整体水位情况(图2),具体情况如图3所示。

表1试验数据集

Tab.1

数据来源数据频率/Hz时间尺度模型修正Sentinel-3A202016-03-09—2021-12-22多种重跟踪算法Sentinel-3B202018-11-28—2021-12-09多种重跟踪算法Envisat202010-01-28—2010-10-22多种重跟踪算法Envisat202010-11-05—2012-03-29多种重跟踪算法Envisat202002-07-04—2009-12-27模拟实测数据SARAL402013-03-14—2016-07-02多种重跟踪算法模拟数据无2012-04-10—2013-03-10模拟测高数据

新窗口打开| 下载CSV

图2

图2 高程系统局部融合后的青海湖2002—2021年的水位

Fig.2 The water level of Qinghai Lake from 2002 to 2021 after local fusion of the elevation system

图3

图3 4颗测高卫星数据反演青海湖水位

Fig.3 Retrieval of Qinghai Lake water level from four altimetry satellite data

在2012年4月—2013年3月之间青海湖区域没有测高卫星经过,为了保证数据特征提取的连续性和提高模型的数据源识别能力,加入了Envisat测高数据模拟值,同时提升模型对多源数据的包容能力。

模拟数据分为两部分。第1部分是2012—2013年的数据,已知青海湖在该时段的水文站实测值(1985国家高程坐标系),需要模拟Envisat(WGS-84坐标系)的值;第2部分是根据Envisat的值模拟实测水位值,选择模拟的数据为2013年前的数据。具体方法为[19]

(1)

1.1.2.1 不同数据源结果构建策略

使用卫星测高数据反演内陆水域的水位时,由于雷达波和地面具有复杂的相互作用,水位提取会受到一定影响。一般在反演内陆水域的水位时,使用Ice1重跟踪算法反演得到的结果可以得到较好的评估结果[20],所以本次试验主要选择将Ice1反演得到水位作为结果特征,将OCOG、Ice2、Ocean和Sea-ice重跟踪算法得到的结果作为辅助数据加入数据集。使用原始测高数据来计算水位,并进行一系列的误差修正,包括地球物理改正和传播修正等,然后通过采用Ice1重跟踪算法进行进一步的数据处理和修正。在剔除异常值后,按照天为单位计算中位数和平均值,如图3所示,中位数相对于平均值更加稳定,并且更接近于水文站的实测水位值,所以在构建数据集时通过加大权重融合Ice1算法得到的中位数水位值。对数据采用了不同重跟踪算法得到相应的结果作为人工智能模型的特征值输入,可以提高模型的稳定性和应用性。同时青海湖水位整体呈上升趋势,年尺度中存在一定规律的周期波动,因此,加入结果特征值对于模型的训练是有益的。

对中位值数据的绝对偏差分布情况进行统计分析(图4),数据的期望μ和标准差σ分布稳定,质量可靠,所以基于不同数据源结果构建策略具有可行性且数据质量高[4,14]。

图4

图4 中位值数据的绝对偏差分布

Fig.4 Absolute deviation distribution of median data

1.1.2.2 不同数据源特征构建策略

在青海湖等大多数湖库区域,卫星测高数据具有长时间尺度,同时一个足迹点中有大量的测高参数和相关影响因子,所以基于不同数据源特征进行融合,可发掘出卫星测高数据的潜在价值。测高卫星由于系统设计,运行状态和运行时间等原因,不同卫星都有其自身的基准,时空分辨率也有差别,所以在数据集构建时需要在多源性中权衡并统一标准。为了增强数据的区分度,数据集加入了多列特征值作为区分值,在构建数据集时对定量数据采用ID区分(在构建数据集时,为同一颗卫星的数据添加同一个标签,以便进行区分)、轨道、周期3个特征作为区别值,同时加入了独热编码[21]加强了区别,即将不同测高参数作为类别,对每个参数进行编码,生成一个只包含一个“1”和多个“0”的向量,以便更好地辨识各种不同的测高数据,使模型可以更好地融合。加入了测高地形参数,即将后向散射系数[22]和经纬度限制共同构成地形识别的特征。首先,通过经纬度限制大致划分区域范围,然后借助后向散射系数进行精细筛选,以识别湖库周围或湖中可能造成“陆地污染”的地形。将构建好的数据集使用主成分分析用以验证数据集合理性,并得到其中主要的影响因子。

经过主成分分析得到表2,融合后的数据总共被分成6个主成分,6个主成分的总解释率达到了约83.754%,大于80%可以很好地解释整体信息,说明经过融合后的不同测高卫星参数已经有了很好的整体性和相关性。

表2总方差解释

Tab.2

主成分初始特征值提取载荷平方和旋转载荷平方和总计总计方差/(%)累积/(%)总计方差/(%)累积/(%)18.94835.79135.7918.94835.79135.7918.48624.55718.22854.0194.55718.22854.0194.85633.38213.52667.5453.38213.52667.5453.10441.5326.12773.6731.5326.12773.6731.69051.3525.40779.0801.3525.40779.0801.53161.1694.67483.7541.1694.67483.7541.272

新窗口打开| 下载CSV

根据表3,第1主成分主要由限制类因素(波峰的选择(95.3%)、后向反射系数(92.1%))和外界因素(温度(92.8%))组成,三者与该成分的对应关系均在90%以上。第2主成分主要由时间特征(日期(95.2%))和识别特征(cycle(95.1%,)、时序(78.9%))组成,且第2主成分与实测水位值的相关性达到了92%,验证了本文建立的识别特征做多源数据的融合策略具有合理性和可行性。第3主成分主要由大地水准面(geoid(98.8%))和经纬度限制(经度(98.6%))组成,但纬度的相关性为负值,这是因为根据不同的Pass识别数据,所以在经度上敏感,与第2主成分里面的周期(95.1%)相对应。第4主成分主要是电离层校正,相关性达到了89.2%。第5主成分主要是测高卫星独热编码(Altimetric Satellite One-hot Encoding,ASOE),相关性达到了97.0%,这是多源卫星数据的融合识别特征,验证了本文建立的识别特征来做多源数据的融合策略具有合理性和可行性。第6主成分主要是湿对流层校正,相关性为65.3%。

表36个主成分的详解

Tab.3

主成分参数归属特征载荷选取peakiness_1_plrm_ku波峰限制类因素0.959是peakiness_2_c波峰限制类因素0.953是peakiness_1_c波峰限制类因素0.953是tb_365表面亮温外界因素0.928是tb_238表面亮温外界因素0.925是1peakiness_1_plrm_ku波峰限制类因素0.922是sig0_ocog_c后向散射系数限制类因素0.921是sig0_ice_plrm_ku后向散射系数限制类因素0.827否sig0_ice_c后向散射系数限制类因素0.718否mod_dry干对流层传播修正0.625是sig0_ocog_ku后向散射系数限制类因素0.606否data日期时间特征0.952是cycle周期识别特征0.951是2in_situ实测水位值标签值0.920是num时序识别特征0.789是sig0_ocog_ku后向散射系数限制类因素-0.694否sig0_ice_sheet_ku后向散射系数限制类因素-0.743否geoid大地水准面限制类因素0.988是3lon经度限制类因素0.986是lat纬度限制类因素-0.993否4iono_cor_gim电离层传播修正0.892是5ASOE独热编码识别特征0.970是6mod_wet湿对流层传播修正0.653是

新窗口打开| 下载CSV

为了更合理地构建数据集,本文将第5主成分融入第2主成分,将第4和第6主成分归为一个主成分,调整后的划分情况为:第1主成分为外界因素,包括表面亮温、后向散射系数、波峰选择;第2主成分为时间和识别特征,包括日期、周期、时序、独热编码;第3主成分为地形限制,包括大地水准面、经度;第4主成分为传播修正和地球物理修正,包括干湿对流层、电离层、固体潮、极潮。

1.2 算法原理

根据卫星测高监测水位的基本原理,一般情况下计算水位的公式为[23]

(2)

式中,HWL为湖面正高;HAS为卫星质心的大地高;H为高度计测量的距离;V为各项误差改正;N为大地水准面的起伏[23]

(3)

式中,δWTC表示湿对流层延迟改正;δDTC表示干对流延迟层改正;δIC表示电离层延迟改正;δSel表示固体潮改正;δPol表示极潮改正;δRC表示波形重定的距离改正。

对于各项误差V,合理选择测高参数改正项,改正算法和模型对水位的精度至关重要[24]。本文在此基础上利用多组权重参数构建决策边界

(4)

式中,xi代表测高参数和相关影响因子;W为赋予xi的权重值;bi为偏差匹配值,整体算法框架如图5所示。

图5

图5 融合自适应定权和偏差匹配方法的人工智能框架

Fig.5 Artificial intelligence framework combining adaptive weighting and deviation matching methods

测高参数作为构建数据集的定量数据,通过采用下文所述的自适应定权方法进行处理,以更精准地衡量各测高参数在应用场景中的重要性,从而构建出整体高精度的基础数据。同时,对于那些无法定量衡量的相关影响因子,如人类活动和潜在蒸散等定性数据,采用偏差匹配方法,考虑外界因素对水位提取精度的影响,使提取的水位更加精确可靠。

1.2.1 自适应定权

因为大多数湖库水位波动差值较小,所以本文扩大该差值使其特征明显化。使用式(5)重新构建水位值,为后续迭代训练作参考值

式中,LWL表示重新构建的水位;表示实测水位或测高数据反演出的水位;表示水位平均值;badjust表示水位调整值;n表示水位数据小数点后的位数(避免浮点数计算带来的计算速度减慢和训练难度增加的问题)。

对于特征波动小测高参数xi和相关影响因子yi,为了使特征更加突出,需要对差值进行放大处理,以便模型能够更轻松地识别这些特征,使用式(6)计算扩大值

(6)

式中,Z包含xi和yi;Zadjust表示调整值。

如果已知对模型有较大关联的特征(如Ice1重跟踪算法的结果),为了防止模型欠拟合导致不能很好地捕捉到这些重要特征,需在构建数据集时赋予高权重。

对于一组连贯的整体性数据,使用式(7)将一维数据转换为二维数组形式进行赋权

(7)

式中,w1表示数值固定的权值。

由于不同的重跟踪算法对不同场景的敏感性存在差异,本文通过不同场景或时间段赋予不同的权重来更有效地利用这些数据。具体来说,在构建同一时序数据时,如果某个重跟踪算法在夏天无冰期的效果最佳,而另一个算法在冬季结冰期的效果更佳,就可以根据这些算法在不同时间段的性能表现,为它们分配不同的权重。通过这种方式,可以构建出一组既考虑时间敏感性又充分利用各算法优势的局部连贯数据集。使用式(8)进行赋权

(8)

式中,wi表示根据特征重要性衡量出的不同权重。

如果需要考虑季节性水位明显,湖泊结冰期等复杂因素时,使用式(9)进行赋权

(9)

将式(5)—式(9)重新组合构建新的参数表

式中,相比于原始数据集,经过处理后的大部分特征值发生了显著的数量级变化,使得差值明显增大,从而使得特征更加突出。这种处理方法能够提高模型的识别能力和准确性,使其更好地捕捉到数据中的重要特征,可见图5中自适应定权部分。

湖库容易受到陆地污染,数据会出现较多异常值,但是整体稳定,所以需要对P*进行稳健标准化处理[25](式(11)),同时模型具有一定的误差包容性,在数据预处理时去除一些极大的误差值即可,可见图5中的数据集构建部分

(11)

式中,xi表示样本的值;xmedian代表样本中位数;DIQR代表样本的四分位距。根据特征值的情况,还可以选择标准差标准化和极差归一化。其中,极差归一化后的数量级会映射在[0,1]之间;标准差标准化使数据在所有特征上的平均值为0,标准差为1;稳健标准化使用的是中位数和四分位数进行缩放,因此它能够更好地处理包含异常值的数据,标准化后的数量级也会随着数据分布的不同而有所变化。

经式(5)—式(11)统一标准后,数据表P*中不同的特征数据各赋予一个随机权重矩阵W

(12)

然后基于梯度优化目标函数

(13)

式中,x*表示目标函数的x值。

为了最小化目标函数,需要找出使目标函数下降最快的方向,计算方向导数

式中,表示梯度;u表示单位向量;θu与梯度的夹角,在u与梯度方向相反时取得最小,即在负梯度方向移动最小化目标函数。

假设目标函数为式(15)

(15)

使用式(16)进行批量梯度下降

(16)

式中,θ表示需要获取最小值的参数;x表示样本数据;y表示标签值;i表示选择的样本数据;j表示特征;m表示整个数据集样本的个数;系数α表示更新的幅度大小。

梯度下降后的临界点为

(17)

式中,r表示确定下降步长的正标量,一般在0.000 1~0.1之间。

通过权重衰减控制目标函数没有完全拟合和过度拟合的趋势,需加入正则化惩罚项

(18)

(19)

式中,正则化惩罚项Ωw)=wTwΔMSE表示均方根误差;λ为设定值,表示控制偏好小范数权重的程度,越大的λ越偏好范数越小的权重。最小化Jw)表示拟合数据与偏好小权重范数之间的权衡。n是样本数量;yi是实测水位值;

是模型的水位提取值。

在权重迭代更新的过程中,由于线性模型的模拟效果不佳,本文采用了高斯误差线性单元(Gaussian error linear unit,GELU)[26]以提高性能和收敛速度。GELU不仅能够减少梯度消失问题,还具备非线性建模能力,从而能够逼近任意函数

(20)

式中,μ和σ分别表示正态分布的均值和标准差。

1.2.2 偏差匹配

通过自适应定权得到的基础数据,构建长时序数据,但此时和实测水位之间仍存在一定偏差,该偏差值很大程度上是温度变化引起的潜在蒸散增强和人类用水的增加等原因所致[18],对这些不确定因素进行定量改正缺乏精确数据支撑。为此,本文提出了偏差匹配方法解决该问题,可见图5中的偏差匹配部分,因为需要最大程度量化出人类活动、潜在蒸散等难以量化的数据,所以首选实测数据作为比对值和标签值,引导模型训练出偏差匹配值[27]

(21)式中,表示实测水位值;表示自适应定权后构建的长时序水位值。

对于缺乏实测水位的湖泊水库,可以通过下面两种方法作为替代。

第1种是使用模拟数据方法,本文根据式(1)做了模拟试验,其结果在本文多天提取试验中已验证,可作为替代方案

式中,表示模拟实测数据。

第2种是通过地理位置相近且有实测资料的湖库进行计算,因为地理位置相近,其对应的人类活动,自然环境导致的一些因素变化在理论上是数值是相近的,符合本文提出的偏差匹配的理论,可作为一种替代方案

(23)式中,表示地理位置相近的湖库水位计算得到的偏差值。

在计算偏差bi时,每个时间点得到的值不同,需要各时间点的对应匹配。根据式(10)统一标准后的数据表P*,加入实测数据xin_situ构建新数据表

(24)

将构建的新数据表重新根据式(11)—式(18)进行迭代训练,得出和自适应定权得到的基础数据相对应的自动偏差匹配值bi。

为了确保偏差匹配的效果更佳,算法对迭代过程根据式(25)进行了优化,确保每次迭代的结果都不差于前一次。具体迭代效果的提升程度,则依赖于先验信息或其他替代方案的精度来确定

(25)

式中,Hx)表示第t次迭代的值;Fx)表示t之前的一次迭代值;x表示原参数值。

1.2.3 运行框架

本文构建了人工智能框架作为算法运行框架(图5),该框架结合了Transformer[28]、Informer[29]、CNN[30]3种人工智能架构,同时基于多源卫星测高数据构建了测高特征提取器。Transformer架构适用于有大量基础数据的训练,同时该架构采用并行处理,比LSTM[31](long short-term memory)等架构的计算速率更快,Transformer的大量训练数据一般是基于时间尺度上的,但是测高数据的大量数据是某一个时间点的大量测高参数及相关因子,所以本文设计了测高特征提取器解决该问题。Informer架构对于长时序构建有着独特优势,加入Informer特征构建方法为长期水位的提取提供了基础。同时本文改进了CNN中的卷积输入层,为多源测高和人工智能架构的结合提供了输入方法和模块。

1.2.4 精度评价

本文算法提取的水位选择平均绝对值误差(mean absolute error,MAE)和RMSE作为精度评价指标。

(26)

(27)

通过引入皮尔逊相关系数判断时间序列的相关性,具体表达式

式中,Y表示实测水位的时间序列值;表示算法提取水位的时间序列值。2 结果与讨论2.1 试验1单天提取2.1.1 试验结果

将构建的数据集输入模型进行训练,当训练集和验证集的损失验证一致且到达稳定状态时(图6(a)),停止训练,得到水位数据(图6(b))。

图6

图6 单天提取与重跟踪算法水位对比

Fig.6 Comparison of water level between single-day extraction and retracking algorithms

2.1.2 结果讨论

单天提取试验以MAE、RMSE作为指标评价本文算法提取水位的质量,同时使用几种重跟踪算法得到的结果作对比。测高卫星经过青海湖时轨迹差异明显(图1(a)),但是由于青海湖东西方向水位差异并不明显,所以本文未考虑不同轨道提取水位的差异。通过皮尔逊相关系数R2评价本文算法提取水位和实测水位的相关性。本文算法在单天提取时(表4),其MAE和RMSE相比于其他重跟踪算法得到了显著下降,且相关系数R2达到了0.91,这表明本文算法在单天提取天数上具有较好的准确性,其提取值与真实值之间的误差相对较小,同时与真实值具有强相关性。对比Ice1、Ocean、Sea-ice 3种重跟踪算法在不同卫星周期下的表现,其相关系数R2都达到了0.9以上,说明重跟踪算法在一定程度上仍能够反映真实情况,但是MAE和RMSE的值相对较大,说明该算法在提取时可能存在一定的偏差,算法的性能相比较于本文算法较差,主要是因为重跟踪算法对应用场景有一定要求,普适性较弱。

表4单天水位提取精度评价

Tab.4

单天算法时间间隔/dMAE/cmRMSE/cmR2Ice1Pass间隔天数14.3815.290.99OceanPass间隔天数34.2137.290.95Sea-icePass间隔天数67.8944.540.95本文算法11.952.190.91

新窗口打开| 下载CSV

因为同一个周期里面有不同的Pass经过研究区域,所以提取的时间间隔根据Pass间隔确定。本文试验区域的时间间隔见表5。

表54颗测高卫星的时间间隔

Tab.5

测高卫星卫星周期/dPass轨迹号Pass间隔天数/dEnvisat3594、479、5523、13、16、19、22、32SARAL3521、94、479、5523、13、16、19S3A27135、6648、19、27S3B27249、66412、15、27

新窗口打开| 下载CSV

单天提取是提取出单个时间步的值,在提取时没有误差积累,提取结果准确。在提取时加入大量多源测高数据及相关影响因子,使模型训练出的wi和bi更加准确。在已有的重跟踪算法中,虽然Ice1算法适用于内陆水域的水位提取,但是与实测值相比仍存在一定的误差。若直接在此误差基础上进行提取,误差会被进一步放大,导致提取结果不理想。然而,通过使用自适应定权后的数据进行提取,并进行偏差匹配,所提取的结果与实测结果更为接近,其效果相较于Ice1等重跟踪算法得出的结果更为准确(图6(b))。一般情况下,当缺乏降雨、季节变化、人类活动等非定量数据时,重跟踪算法得到的水位可能仍然存在较大的误差,无法得到很好的解释,无法更好地修正模型,但本文提出的偏差匹配算法可以通过自适应训练自动获取并赋值权重,大幅度加强了融合提取水位的能力,这也是本文算法MAE和RMSE下降的主要原因之一。

为了确保算法的稳定性和结果的可靠性,将10次提取的数据与实测数据做相关性分析,单天提取的水位与实测数据相关度在0.91~0.96之间(图7),具有强相关性,说明经过自适应定权和偏差匹配后的数据结果可靠且质量高。

图7

图7 单天提取水位与实测水位的相关性热图

Fig.7 Correlation heat map between extracted water level in a single day and measured water level

2.2 试验2:多天提取2.2.1 试验结果

经过训练(图8(a))和参数优化(调整下降步长和更新样本数等),多天提取目前可以一次性提取5个月的水位(图8(b))。后续通过多次提取水位,拼接可构建完整的长时序水位。

图8

图8 多天水位提取与重跟踪算法水位对比

Fig.8 Comparison of water level between multi-day extraction and retracking algorithms

2.2.2 结果讨论

由表6可以看出,本文算法在MAE、RMSE和相关系数R2方面都表现最好,说明准确性更高、稳定性更好,且提取结果与实测数据之间的相关性更好。

表6多天水位提取精度评价

Tab.6

多天算法时间间隔/dMAE/cmRMSE/cmR2Ice1Pass间隔天数13.1914.110.84OceanPass间隔天数42.1642.540.41Sea-icePass间隔天数33.7134.100.47本文算法Pass间隔天数1.852.580.85

新窗口打开| 下载CSV

多天提取是提取多个时间步的值,可以通过多次提取得到未来多个时间步的值,但多天提取的误差会随着时间步的增加而增大,提取结果也会逐渐不准确。为了降低该误差,实现多天提取,本文对模型做了两个改进:①加长时间间隔,根据更多先验信息获取更多的经验值,降低误差的积累;②在模型解码层加入一部分实测数据,实现了数据的一次性输出[28-29],即多天提取。因为多天提取的误差会随时间步的增长而增加,所以本文试验保持相关系数R2在0.8以上作为阈值,最终得出建议值为5个月,相关系数R2在0.83~0.91之间(图9)。试验结果表明多天提取相比于单天提取精度略有下降,但是仍具有强相关性,同时精度比现有Ice1等重跟踪算法高(图8(b))。

图9

图9 多天提取水位与实测水位的相关性热图

Fig.9 Correlation heat map between extracted water level in multi-day and measured water level

在本次多天提取的试验中,相关度相较于单天提取有所下降,这是为了获取更多的先验信息而扩大了时间间隔,并在计算中融入了模拟实测数据和模拟测高数据的结果。但是MAE和RMSE仍保持了与单天提取相当的精度,主要是因为算法中对时间序列构建了高效的时间重采样策略,使得模型能够更好地捕获时序信息,从而在一定程度上弥补了模拟数据精度不足的缺陷。本模型所构建的时间采样策略(图5)涵盖了多种时间粒度,如秒、时、分、工作日、月和季节等。这种灵活性使得笔者可以根据具体情境选择最合适的采样策略,如选择工作日采样策略来处理人类活动频繁的情况,或选择月或季节的采样策略来应对潜在蒸散等夏季较高的情境。通过最大化地利用时序信息,本次试验成功地在模拟数据的基础上提取出了高精度的水位信息。

2.3 长期提取

通过将单天提取和多天提取两种试验方案相结合,构建长期提取方法。该方法利用多天提取来拼接长时序水位数据,同时使用单天提取来修正部分异常值,从而实现长时序高精度的水位提取。如,如果要构建12 a的水位数据,可以首先采用多天提取方法,每次提取5个月的数据。这样只需进行29次提取,然后将这29次提取的水位数据进行简单拼接,即可覆盖整个12 a的水位数据。如果在某些特定点的水位数据效果不理想,可以利用单天提取方法进行局部修正,最终获得一个长时序、高精度的水位数据集(图10)。本文长期提取试验共进行了5次,5次提取结果的MAE值在1.5~2.0 cm之间,RMSE值在2.0~2.5 cm之间,表明长期提取方法的水位数据相对误差小,精度高,验证了长期提取方法的有效性和可靠性。相关系数R2均在0.9以上,表明通过长期提取方法获得的水位数据集可以很好地反映实际的水位变化趋势。

图10

图10 使用长期提取方法构建的青海湖2010—2022年长时序高精度水位

Fig.10 Long-term time-series and high-precision water level of Qinghai Lake from 2010 to 2022 constructed by long-term extraction method

3 结论和展望

为融合多源测高数据构建长时序高精度水位,本文提出了融合自适应定权和偏差匹配的多源卫星测高数据水位提取算法。以青海湖为试验区域,使用不同数据源结果和特征两种策略构建基础数据集,利用人工智能框架训练并计算,结果表明:①相比于传统计算工具,人工智能框架更适合大数据量的测高数据计算,同时通过人工智能框架可以训练出合理选择测高参数改正项,改正算法和模型的能力,相比于人工经验选择效率更高,选取更准确;②本文将多源测高数据通过自适应定权方法融合为统一的基础数据,通过考虑各测高数据之间的相关性达到了整体的融合,相比于只考虑高程系统之间转换进行局部融合的传统方法,该方法构建的长时序水位更具整体性,且考虑的影响因子更多,整体精度更高;③相比于波形重构算法,本文提出的自适应定权和偏差匹配方法,除了考虑构建波形重构算法涉及的参数之外,还考虑了更多的测高参数和相关因子,使其普适性更高,自适应性更强,其提取的水位也更精确。

笔者团队将考虑结冰期、湖泊面积、季节特征等指标构建更精细化的数据集,下一步重点是结合GRACE等重力卫星数据构建包含地下水的人工智能水文模型。目前SWOT测高卫星已经发射,空间覆盖率得到了大幅提高,但是时间分辨率在运营阶段为21 d,所以使用人工智能算法去解决SWOT时间分辨率的问题也是笔者团队重要研究方向之一。

来源:测绘学报

相关推荐